多模态 | Chico's Tech Blog

语音模型这一年:从 ASR 到端到端语音

两年前你做语音功能,绕不开 Whisper。把音频丢进去,拿一段文字出来,干净利落。今天你再去看,会发现一个有点反常识的事实:在不少新产品里,那一段文字根本不存在了。语音进去,语音出来,中间没有任何一步是"文本"。Whisper 这种纯 ASR 模型,正在从"语音 AI 的地基"退化成"一个还在用、但不再激动人心的工具"。这不是 ASR 变差了——它一直在变好。是语音模型这条线,这一两年走完了一次三级跳。我想把这三级讲清楚:每一步解决了什么、赔进去了什么,以及 2026 年的此刻,你手里的场景到底该站在哪一级。三级跳:一张时间线 timeline title 语音模型的三代演进第一代专用 ASR : Whisper 系 / 各家流式 ASR : 语音 → 文字,只做识别第二代多模态语音理解 : Qwen-Audio / Qwen3-Omni : 语音直接进 LLM,听懂语气与事件第三代端到端语音 : Moshi / Sesame CSM : GPT-Realtime / Gemini Live : 语音进语音出,中间不落文字这三代不是互相取代的关系——更像三层楼,新楼盖起来了,旧楼还有人住,而且住得挺好。下面一层一层说。第一代:专用 ASR,把语音"压扁"成文字 ASR 模型只干一件事:把声波转成最可能的那串字。Whisper large-v3 仍然是这条线上的标杆,多语言、抗噪、开源、便宜,2026 年依然是无数转写流水线的默认选项。它解决的问题很实在:语音是连续的、模拟的、信息量巨大的信号,文字是离散的、规整的、好处理的符号。ASR 在两者之间架了一座桥。有了这座桥,语音才第一次能接进所有为文字设计的系统——搜索、数据库、传统 NLP、LLM。代价也恰恰在这座桥上。ASR 是一次有损压缩,而且丢掉的东西,常常正是你最想要的。同一句"你这是什么意思",可以是真诚发问,可以是压着火,可以是开玩笑。转成文字之后,这九个字一模一样,语气全没了。一段录音里有人在笑、有人在哭、背景有玻璃碎掉的声音——ASR 给你的还是那行字,这些"非文字信息"在转写的瞬间被抹平。对"我要把会议录音变成文字稿"这种任务,这种丢失无所谓,甚至是好事。但对"我要做一个能察言观色的语音助手",这就是地基上的裂缝:你的下游模型再聪明,也只能在 ASR 留下的那点信息里打转。 ...

图像生成 2026:现状、玩法与落地

两年前,你让 AI 生成一张「咖啡馆门口的招牌,写着 OPEN」,大概率会得到一块写着「OPNE」或者「OEPN」的牌子——文字是糊的,字母是乱的,整张图一眼假。现在你再试一次。GPT Image 1.5、Nano Banana Pro 这一批模型,能把整段菜单文字清清楚楚画在招牌上,中英文混排都行,连字距都对。这件事说明了一个变化:2026 年的图像生成,已经过了「拼画质」的阶段。照片级真实感这道坎,几乎所有头部模型都迈过去了。差异不再在「画得像不像」,而是上移到了——能不能听懂复杂指令、能不能把字写对、能不能精确控制构图、版权干不干净。这篇不吹也不黑,就把 2026 年这批工具的能力边界,实打实地拆给你看。主流工具:四个梯队,各有各的活 2026 年的图像生成已经不是「一家独大」,而是按场景分工。我把现在真正能打的工具排成四组。工具定位最擅长短板 GPT Image 1.5(OpenAI) 指令理解之王复杂多对象指令、文字渲染风格偏「数字感」,审美不够野 Nano Banana Pro(Gemini 3 Pro Image) 知识型生成文字、信息图、多语言、4K 偏「正确」,有时缺惊喜 Midjourney V7 / Niji 7 审美天花板氛围、光影、风格化指令偏「自由发挥」,可控性弱 FLUX.2(Black Forest Labs) 开发者与可控性参考图、局部重绘、品牌色精确开箱审美一般,要调即梦 Seedream 5 / 通义万相国产主力中文场景、电商图、性价比海外生态、英文长文本略弱几个判断: GPT Image 1.5 是 DALL-E 3 的继任者。它最大的本事是「听话」——你给一段绕口的指令,比如「左边一只戴红围巾的橘猫看向右边,右边窗台上有三盆多肉,从左到右依次是高、矮、高」,它能基本照做。这种精确执行复杂指令的能力,目前没有对手。 Nano Banana Pro 是 Google 基于 Gemini 3 Pro 做的,特点是「带脑子画图」——它能调用 Gemini 的推理和真实世界知识。你让它画一张「解释光合作用的信息图」,它真能把流程画对,文字标注也对。支持上传最多 14 张参考图同时喂一整套品牌规范,这一点对企业用户很关键。 ...

AI 视频的可控性:运镜、一致性、参考图

给你看一个真实的对比。两个团队,同样要做一支 30 秒的产品宣传片。A 团队拿最强的文生视频模型,写了一段漂亮的 prompt,十分钟出片,画质惊艳——然后发现主角的衣服在第二个镜头变了颜色,客户不要。B 团队画质明显糙一截,但每个镜头的相机怎么推、主角长什么样、最后一帧停在哪,全都对得上。客户选了 B。这件事说明一个被低估的事实:AI 视频生成早就过了"画得好不好看"的阶段,现在卡在"画得跟不跟你想的一样"。 2026 年发布的模型——Veo 3.1、Runway Gen-4.5、Kling O1、Pika 2.5——画质都够用了,真正的竞争发生在控制层。这篇不横评工具,只讲一件事:怎么让 AI 视频听话。为什么"可控"比"画质"更卡落地画质是个连续变量,差一点也能用;可控性是个二元变量,要么对要么废。商业视频的本质是"带着约束的创作"。客户给你一张产品图,主角的脸不能变,品牌色是固定的 RGB 值,这个镜头要从左往右摇,下个镜头要接得上。这些都不是"建议",是硬约束。一个画质 95 分但主角换了张脸的镜头,商业价值是 0,不是 95。文生视频的根本问题在这:prompt 是个低带宽的接口。你想说的是"相机以每秒 15 度的速度向右平摇,主角始终在画面左三分之一",你能写的是"镜头缓缓摇过,主角在一侧"。中间丢掉的信息,模型用它训练数据里的先验给你补——补出来的东西好不好看是一回事,是不是你要的,完全是另一回事。所以可控视频生成这两年的所有进展,本质上是在干同一件事:给模型加上 prompt 之外的、带宽更高的控制信号。参考图、相机轨迹、首尾帧、mask,都是这个东西。 flowchart TB P[文字 prompt低带宽] --> M[视频生成模型] R[参考图锁身份/风格] --> M C[相机轨迹锁运镜] --> M K[首尾帧锁起止] --> M K2[局部 mask锁编辑范围] --> M M --> V[可控的视频] style P fill:#fde7c2,stroke:#e8b23c style R fill:#cfe8d5,stroke:#4f9d69 style C fill:#cfe8d5,stroke:#4f9d69 style K fill:#cfe8d5,stroke:#4f9d69 style K2 fill:#cfe8d5,stroke:#4f9d69 橙色那条是大多数人唯一在用的接口,绿色那几条才是 2026 年真正在拉开差距的地方。下面逐个拆。 ...

视觉理解模型用在 Agent 里

让一个 2026 年最强的视觉 Agent 去操作一个专业软件——比如 Photoshop 或者一个企业 ERP——它定位界面元素的准确率,大概在 40% 左右。这个数字来自 ScreenSpot-Pro 这个专门测「高分辨率专业软件」的基准。换句话说:你让它点一个按钮,它有一半多的概率点歪。消费级 App 的大图标、空间宽敞的界面,模型能做到八九成;一旦换成密密麻麻的工具栏、4K 屏上一个 20 像素的小图标,准确率断崖式往下掉。这件事值得先摆在前面说,因为「多模态 LLM 能看图了」这句话,很容易让人以为 Agent 的眼睛已经够用了。它确实能看,但「看见」和「看准」是两回事。这篇就讲清楚:视觉能力到底让 Agent 多了什么本事,这只眼睛在哪些地方靠谱、哪些地方会骗你,以及一个工程上最该想清楚的问题——什么时候该让 Agent 看,什么时候别看。多了一只眼睛,Agent 能做什么新事在 VLM 成熟之前,Agent 想跟外部世界打交道,只有一条路:把世界翻译成文本或结构化数据再喂进去。网页要先抽成 DOM,文档要先 OCR 成纯文本,图表要先有人把数据导成 CSV。这条路有个根本问题——翻译这一步本身就会丢信息,而且不是每样东西都翻译得了。视觉能力补的就是这块。具体讲,它解锁了四类以前做不了、或者做得很别扭的事。第一类是看着屏幕操作 UI。这是讨论最多的方向,也就是 computer use / GUI agent。Agent 截一张屏,VLM 看图,然后输出「点击坐标 (840, 312)」这样的动作。它的价值在于绕开了接口:很多老软件没有 API,很多 SaaS 的 API 覆盖不全,桌面应用更是基本无接口可言。只要它有界面,视觉 Agent 理论上就能操作——它走的是和人一样的入口。第二类是读「长得不像文本」的文档。发票、合同、财报、扫描件、PDF 里的复杂表格——这些东西的信息一半在文字里,一半在版式里。哪个数字对应哪个表头、合同里哪段是被框出来的特别条款、一张表里的合并单元格,纯 OCR 抽完文字,这些空间关系就丢了。VLM 直接看版面,LlamaParse 这类工具就是这个思路:不是先 OCR 再理解,而是让模型边看版式边理解,遇到嵌在文档里的图表和表格还能自己纠错。第三类是看图表。一张柱状图、一条趋势线,数据点没有标注的时候,纯文本模型完全无能为力。VLM 能直接读出「第三季度比第二季度涨了大概 15%」。更进一步的做法像 ChartAgent,把图表分析拆成一串可观察的步骤,配上元素检测、实例分割、OCR 这些工具,让 Agent 动态调用——本质是承认「光靠看不够准,得配把尺子」。 ...