视觉语言模型

让一个 2026 年最强的视觉 Agent 去操作一个专业软件——比如 Photoshop 或者一个企业 ERP——它定位界面元素的准确率,大概在 40% 左右。这个数字来自 ScreenSpot-Pro 这个专门测「高分辨率专业软件」的基准。换句话说:你让它点一个按钮,它有一半多的概率点歪。消费级 App 的大图标、空间宽敞的界面,模型能做到八九成;一旦换成密密麻麻的工具栏、4K 屏上一个 20 像素的小图标,准确率断崖式往下掉。这件事值得先摆在前面说,因为「多模态 LLM 能看图了」这句话,很容易让人以为 Agent 的眼睛已经够用了。它确实能看,但「看见」和「看准」是两回事。这篇就讲清楚:视觉能力到底让 Agent 多了什么本事,这只眼睛在哪些地方靠谱、哪些地方会骗你,以及一个工程上最该想清楚的问题——什么时候该让 Agent 看,什么时候别看。多了一只眼睛,Agent 能做什么新事在 VLM 成熟之前,Agent 想跟外部世界打交道,只有一条路:把世界翻译成文本或结构化数据再喂进去。网页要先抽成 DOM,文档要先 OCR 成纯文本,图表要先有人把数据导成 CSV。这条路有个根本问题——翻译这一步本身就会丢信息,而且不是每样东西都翻译得了。视觉能力补的就是这块。具体讲,它解锁了四类以前做不了、或者做得很别扭的事。第一类是看着屏幕操作 UI。这是讨论最多的方向,也就是 computer use / GUI agent。Agent 截一张屏,VLM 看图,然后输出「点击坐标 (840, 312)」这样的动作。它的价值在于绕开了接口:很多老软件没有 API,很多 SaaS 的 API 覆盖不全,桌面应用更是基本无接口可言。只要它有界面,视觉 Agent 理论上就能操作——它走的是和人一样的入口。第二类是读「长得不像文本」的文档。发票、合同、财报、扫描件、PDF 里的复杂表格——这些东西的信息一半在文字里,一半在版式里。哪个数字对应哪个表头、合同里哪段是被框出来的特别条款、一张表里的合并单元格,纯 OCR 抽完文字,这些空间关系就丢了。VLM 直接看版面,LlamaParse 这类工具就是这个思路:不是先 OCR 再理解,而是让模型边看版式边理解,遇到嵌在文档里的图表和表格还能自己纠错。第三类是看图表。一张柱状图、一条趋势线,数据点没有标注的时候,纯文本模型完全无能为力。VLM 能直接读出「第三季度比第二季度涨了大概 15%」。更进一步的做法像 ChartAgent,把图表分析拆成一串可观察的步骤,配上元素检测、实例分割、OCR 这些工具,让 Agent 动态调用——本质是承认「光靠看不够准,得配把尺子」。 ...

开场：一个神奇的对话 2025年某天，你和AI的对话：你：[上传一张冰箱照片] 你：“帮我看看能做什么菜” AI：“我看到你冰箱里有：鸡蛋、西红柿、青椒、米饭… 推荐做番茄炒蛋盖饭！步骤如下…” 你：“等等，我不吃辣” AI：“好的，那把青椒换成黄瓜，做黄瓜炒蛋…” 这不是科幻，这是2025年的现实。 AI不仅能"看懂"你的冰箱，还能理解上下文、给出建议、甚至根据你的偏好调整方案。这就是多模态AI的魔力。第一章：什么是多模态AI？ 1.1 从「单一感官」到「全感官」传统AI（单模态）： 1 2 3 4 5 6 7 # 只能处理文字 text_ai = GPT3() response = text_ai.chat("今天天气怎么样？") # ✅ 能回答 response = text_ai.chat("[图片: 窗外风景]") # ❌ 看不懂图片多模态AI： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 # 能处理文字、图片、音频、视频 multimodal_ai = GPT4V() # 文字 ✅ response = multimodal_ai.chat("今天天气怎么样？") # 图片 ✅ response = multimodal_ai.chat( text="这是什么？", image="photo.jpg" ) # 音频 ✅ response = multimodal_ai.chat( text="这段音乐是什么风格？", audio="music.mp3" ) # 视频 ✅ response = multimodal_ai.chat( text="视频里的人在做什么？", video="video.mp4" ) 1.2 多模态的「模态」是什么？模态（Modality） = 信息的表现形式 ...

视觉语言模型

视觉理解模型用在 Agent 里

多模态AI：当机器学会「看图说话」