13400颗星的开源项目:输入一句话,AI全自动帮你做短视频
刷到一条短视频,画面精美、配乐到位、解说流畅——你以为这至少得花两小时剪出来?
其实可能只花了一句话的时间。
GitHub上有个项目叫Pixelle-Video,13400颗星,2015个Fork,做的事很直接:你给它一个主题,它从写文案到出成片,全自动搞定。
它做了什么
Pixelle-Video把短视频生产的整条链路拆成了五个环节,全部交给AI:
文案生成 → AI配图/视频 → 语音解说 → 背景音乐 → 一键合成
每个环节都可以独立配置不同的AI模型。写文案可以用通义千问、GPT-4o、DeepSeek或者本地跑的Ollama;生图走ComfyUI工作流,支持FLUX、WAN 2.1等模型;语音有Edge-TTS、Index-TTS等多种方案,还能上传参考音频做声音克隆。
关键在于——这些环节之间的衔接是自动的。你不需要手动把文案贴到生图工具,再把图片拖进剪辑软件,再对着麦克风录音。整个流水线跑通,从输入到输出。
为什么它能跑通
Pixelle-Video的底层架构选了一个聪明的路线:基于ComfyUI。
ComfyUI本身就是一个节点式的工作流编排工具,社区积累了大量现成的生图、生视频、TTS工作流。Pixelle-Video没有从零造轮子,而是直接站在ComfyUI生态上,把短视频生产这条链路串了起来。
这意味着两件事:
第一,原子能力可以灵活替换。 默认用FLUX生图?你可以换成任何ComfyUI支持的模型。默认用Edge-TTS?你可以换成ChatTTS或者任何你喜欢的语音方案。只要工作流文件放进workflows/目录,就能被识别和调用。
第二,社区生态直接可用。 ComfyUI社区积累了成千上万的工作流模板,Pixelle-Video的用户不需要自己从头搭建,很多现成的能力可以直接拿来用。
除了基础功能,它还能做什么
从更新记录看,这个项目的迭代速度相当快:
数字人口播——上传一张照片和一段音频,AI生成口播视频,支持多语言。
图生视频——上传一张图片,AI让它动起来,生成短视频内容。
动作迁移——上传参考视频和图片,把参考视频中的动作迁移到新图片上。
自定义素材——不一定要AI生成所有内容,可以上传自己的照片和视频,AI会智能分析素材并生成对应的脚本。
模板方面,支持竖屏、横屏、方形等多种尺寸,内置了人文纪实、文化解构、科学思辨、个人成长、情感、小说解说、知识科普等多种视频模板。懂HTML的话,还可以自己写模板。
费用怎么算
这是很多人关心的问题。Pixelle-Video本身是开源免费的(Apache 2.0许可证),主要成本在AI模型调用上:
完全免费方案:LLM用Ollama本地跑 + ComfyUI本地部署,硬件要求就是一块够用的显卡,零额外费用。
低成本方案:LLM用通义千问(API调用价格很低)+ ComfyUI本地部署,每次生成视频的成本可能就几分钱。
全云端方案:LLM用OpenAI + 图像生成用RunningHub,不需要本地显卡,但费用相对高一些。
谁适合用
几类人可能会觉得这个工具有价值:
自媒体运营者——批量生产短视频内容,降低内容制作的边际成本。
知识博主——把文字内容快速转化为视频形式,扩大内容分发渠道。
不擅长剪辑的人——零门槛的交互设计,不需要学习Premiere或者Final Cut。
想探索AI视频制作的人——开源免费,可以随意折腾,是了解AI视频生产链路的好入口。
一点思考
Pixelle-Video反映了一个趋势:AI工具正在从"单点能力"走向"全链路自动化"。
一年前我们还在惊叹AI能生成一张好图、一段好文字。现在这些能力已经被串联成完整的流水线,从输入到输出全自动化。门槛降低的幅度比很多人预想的要快。
当然,全自动化不等于高质量化。AI生成的文案可能千篇一律,配图可能缺乏创意,语音可能缺少温度。但对于大量标准化内容的生产需求来说,够用了。
工具在这里,想象力在别处。
项目地址:github.com/AIDC-AI/Pixelle-Video
——来自公众号:人生几十年噢耶