可控生成 | Chico's Tech Blog

给你看一个真实的对比。两个团队,同样要做一支 30 秒的产品宣传片。A 团队拿最强的文生视频模型,写了一段漂亮的 prompt,十分钟出片,画质惊艳——然后发现主角的衣服在第二个镜头变了颜色,客户不要。B 团队画质明显糙一截,但每个镜头的相机怎么推、主角长什么样、最后一帧停在哪,全都对得上。客户选了 B。这件事说明一个被低估的事实:AI 视频生成早就过了"画得好不好看"的阶段,现在卡在"画得跟不跟你想的一样"。 2026 年发布的模型——Veo 3.1、Runway Gen-4.5、Kling O1、Pika 2.5——画质都够用了,真正的竞争发生在控制层。这篇不横评工具,只讲一件事:怎么让 AI 视频听话。为什么"可控"比"画质"更卡落地画质是个连续变量,差一点也能用;可控性是个二元变量,要么对要么废。商业视频的本质是"带着约束的创作"。客户给你一张产品图,主角的脸不能变,品牌色是固定的 RGB 值,这个镜头要从左往右摇,下个镜头要接得上。这些都不是"建议",是硬约束。一个画质 95 分但主角换了张脸的镜头,商业价值是 0,不是 95。文生视频的根本问题在这:prompt 是个低带宽的接口。你想说的是"相机以每秒 15 度的速度向右平摇,主角始终在画面左三分之一",你能写的是"镜头缓缓摇过,主角在一侧"。中间丢掉的信息,模型用它训练数据里的先验给你补——补出来的东西好不好看是一回事,是不是你要的,完全是另一回事。所以可控视频生成这两年的所有进展,本质上是在干同一件事:给模型加上 prompt 之外的、带宽更高的控制信号。参考图、相机轨迹、首尾帧、mask,都是这个东西。 flowchart TB P[文字 prompt低带宽] --> M[视频生成模型] R[参考图锁身份/风格] --> M C[相机轨迹锁运镜] --> M K[首尾帧锁起止] --> M K2[局部 mask锁编辑范围] --> M M --> V[可控的视频] style P fill:#fde7c2,stroke:#e8b23c style R fill:#cfe8d5,stroke:#4f9d69 style C fill:#cfe8d5,stroke:#4f9d69 style K fill:#cfe8d5,stroke:#4f9d69 style K2 fill:#cfe8d5,stroke:#4f9d69 橙色那条是大多数人唯一在用的接口,绿色那几条才是 2026 年真正在拉开差距的地方。下面逐个拆。 ...