13400颗星的开源项目：输入一句话，AI全自动帮你做短视频

刷到一条短视频，画面精美、配乐到位、解说流畅——你以为这至少得花两小时剪出来？

其实可能只花了一句话的时间。

GitHub上有个项目叫Pixelle-Video，13400颗星，2015个Fork，做的事很直接：你给它一个主题，它从写文案到出成片，全自动搞定。

它做了什么

Pixelle-Video把短视频生产的整条链路拆成了五个环节，全部交给AI：

文案生成 → AI配图/视频 → 语音解说 → 背景音乐 → 一键合成

每个环节都可以独立配置不同的AI模型。写文案可以用通义千问、GPT-4o、DeepSeek或者本地跑的Ollama；生图走ComfyUI工作流，支持FLUX、WAN 2.1等模型；语音有Edge-TTS、Index-TTS等多种方案，还能上传参考音频做声音克隆。

关键在于——这些环节之间的衔接是自动的。你不需要手动把文案贴到生图工具，再把图片拖进剪辑软件，再对着麦克风录音。整个流水线跑通，从输入到输出。

Pixelle-Video的底层架构选了一个聪明的路线：基于ComfyUI。

ComfyUI本身就是一个节点式的工作流编排工具，社区积累了大量现成的生图、生视频、TTS工作流。Pixelle-Video没有从零造轮子，而是直接站在ComfyUI生态上，把短视频生产这条链路串了起来。

这意味着两件事：

第一，原子能力可以灵活替换。 默认用FLUX生图？你可以换成任何ComfyUI支持的模型。默认用Edge-TTS？你可以换成ChatTTS或者任何你喜欢的语音方案。只要工作流文件放进workflows/目录，就能被识别和调用。

第二，社区生态直接可用。 ComfyUI社区积累了成千上万的工作流模板，Pixelle-Video的用户不需要自己从头搭建，很多现成的能力可以直接拿来用。

从更新记录看，这个项目的迭代速度相当快：

数字人口播——上传一张照片和一段音频，AI生成口播视频，支持多语言。

图生视频——上传一张图片，AI让它动起来，生成短视频内容。

动作迁移——上传参考视频和图片，把参考视频中的动作迁移到新图片上。

自定义素材——不一定要AI生成所有内容，可以上传自己的照片和视频，AI会智能分析素材并生成对应的脚本。

模板方面，支持竖屏、横屏、方形等多种尺寸，内置了人文纪实、文化解构、科学思辨、个人成长、情感、小说解说、知识科普等多种视频模板。懂HTML的话，还可以自己写模板。

这是很多人关心的问题。Pixelle-Video本身是开源免费的（Apache 2.0许可证），主要成本在AI模型调用上：

完全免费方案：LLM用Ollama本地跑 + ComfyUI本地部署，硬件要求就是一块够用的显卡，零额外费用。

低成本方案：LLM用通义千问（API调用价格很低）+ ComfyUI本地部署，每次生成视频的成本可能就几分钱。

全云端方案：LLM用OpenAI + 图像生成用RunningHub，不需要本地显卡，但费用相对高一些。

几类人可能会觉得这个工具有价值：

自媒体运营者——批量生产短视频内容，降低内容制作的边际成本。

知识博主——把文字内容快速转化为视频形式，扩大内容分发渠道。

不擅长剪辑的人——零门槛的交互设计，不需要学习Premiere或者Final Cut。

想探索AI视频制作的人——开源免费，可以随意折腾，是了解AI视频生产链路的好入口。

Pixelle-Video反映了一个趋势：AI工具正在从"单点能力"走向"全链路自动化"。

一年前我们还在惊叹AI能生成一张好图、一段好文字。现在这些能力已经被串联成完整的流水线，从输入到输出全自动化。门槛降低的幅度比很多人预想的要快。

当然，全自动化不等于高质量化。AI生成的文案可能千篇一律，配图可能缺乏创意，语音可能缺少温度。但对于大量标准化内容的生产需求来说，够用了。

工具在这里，想象力在别处。

——来自公众号：人生几十年噢耶