视觉理解模型用在 Agent 里

让一个 2026 年最强的视觉 Agent 去操作一个专业软件——比如 Photoshop 或者一个企业 ERP——它定位界面元素的准确率,大概在 40% 左右。 这个数字来自 ScreenSpot-Pro 这个专门测「高分辨率专业软件」的基准。换句话说:你让它点一个按钮,它有一半多的概率点歪。消费级 App 的大图标、空间宽敞的界面,模型能做到八九成;一旦换成密密麻麻的工具栏、4K 屏上一个 20 像素的小图标,准确率断崖式往下掉。 这件事值得先摆在前面说,因为「多模态 LLM 能看图了」这句话,很容易让人以为 Agent 的眼睛已经够用了。它确实能看,但「看见」和「看准」是两回事。这篇就讲清楚:视觉能力到底让 Agent 多了什么本事,这只眼睛在哪些地方靠谱、哪些地方会骗你,以及一个工程上最该想清楚的问题——什么时候该让 Agent 看,什么时候别看。 多了一只眼睛,Agent 能做什么新事 在 VLM 成熟之前,Agent 想跟外部世界打交道,只有一条路:把世界翻译成文本或结构化数据再喂进去。网页要先抽成 DOM,文档要先 OCR 成纯文本,图表要先有人把数据导成 CSV。这条路有个根本问题——翻译这一步本身就会丢信息,而且不是每样东西都翻译得了。 视觉能力补的就是这块。具体讲,它解锁了四类以前做不了、或者做得很别扭的事。 第一类是看着屏幕操作 UI。 这是讨论最多的方向,也就是 computer use / GUI agent。Agent 截一张屏,VLM 看图,然后输出「点击坐标 (840, 312)」这样的动作。它的价值在于绕开了接口:很多老软件没有 API,很多 SaaS 的 API 覆盖不全,桌面应用更是基本无接口可言。只要它有界面,视觉 Agent 理论上就能操作——它走的是和人一样的入口。 第二类是读「长得不像文本」的文档。 发票、合同、财报、扫描件、PDF 里的复杂表格——这些东西的信息一半在文字里,一半在版式里。哪个数字对应哪个表头、合同里哪段是被框出来的特别条款、一张表里的合并单元格,纯 OCR 抽完文字,这些空间关系就丢了。VLM 直接看版面,LlamaParse 这类工具就是这个思路:不是先 OCR 再理解,而是让模型边看版式边理解,遇到嵌在文档里的图表和表格还能自己纠错。 第三类是看图表。 一张柱状图、一条趋势线,数据点没有标注的时候,纯文本模型完全无能为力。VLM 能直接读出「第三季度比第二季度涨了大概 15%」。更进一步的做法像 ChartAgent,把图表分析拆成一串可观察的步骤,配上元素检测、实例分割、OCR 这些工具,让 Agent 动态调用——本质是承认「光靠看不够准,得配把尺子」。 ...

2026-04-22 · 2 min · Chico

多模态AI:当机器学会「看图说话」

开场:一个神奇的对话 2025年某天,你和AI的对话: 你:[上传一张冰箱照片] 你:“帮我看看能做什么菜” AI:“我看到你冰箱里有:鸡蛋、西红柿、青椒、米饭… 推荐做番茄炒蛋盖饭!步骤如下…” 你:“等等,我不吃辣” AI:“好的,那把青椒换成黄瓜,做黄瓜炒蛋…” 这不是科幻,这是2025年的现实。 AI不仅能"看懂"你的冰箱,还能理解上下文、给出建议、甚至根据你的偏好调整方案。 这就是多模态AI的魔力。 第一章:什么是多模态AI? 1.1 从「单一感官」到「全感官」 传统AI(单模态): 1 2 3 4 5 6 7 # 只能处理文字 text_ai = GPT3() response = text_ai.chat("今天天气怎么样?") # ✅ 能回答 response = text_ai.chat("[图片: 窗外风景]") # ❌ 看不懂图片 多模态AI: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 # 能处理文字、图片、音频、视频 multimodal_ai = GPT4V() # 文字 ✅ response = multimodal_ai.chat("今天天气怎么样?") # 图片 ✅ response = multimodal_ai.chat( text="这是什么?", image="photo.jpg" ) # 音频 ✅ response = multimodal_ai.chat( text="这段音乐是什么风格?", audio="music.mp3" ) # 视频 ✅ response = multimodal_ai.chat( text="视频里的人在做什么?", video="video.mp4" ) 1.2 多模态的「模态」是什么? 模态(Modality) = 信息的表现形式 ...

2025-12-12 · 10 min · Chico