o3 是什么?#
2024年12月,OpenAI 发布了 o3,这是继 o1 之后的第二代推理模型(reasoning model)。
它在 ARC-AGI 测试中取得了 87.5% 的准确率,而此前最好的AI系统只有5%,人类平均水平是85%。
这意味着什么?
o3 第一次在"智力测试"级别的任务上,达到甚至超越了人类水平。
推理模型 vs 普通模型#
普通大模型(GPT-4、Claude等)#
1
2
3
4
5
6
| 输入 → [神经网络] → 输出
特点:
- 单次前向传播
- 固定计算量
- 直觉式回答
|
就像人类的"快思考"(System 1):看到问题,直接凭直觉回答。
推理模型(o1、o3)#
1
2
3
4
5
6
| 输入 → [思考] → [验证] → [思考] → [验证] → ... → 输出
特点:
- 多轮迭代推理
- 计算量可变(越难越久)
- 逻辑式推导
|
就像人类的"慢思考"(System 2):遇到难题,一步步推导验证。
o3 的核心技术#
1. Chain-of-Thought(思维链)#
o3 会在内部生成详细的推理过程:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
| 问题:一个农场有鸡和兔,共35个头,94只脚,问鸡有多少只?
o3的思考过程:
[思考] 设鸡有x只,兔有y只
[思考] 根据题意:x + y = 35(头的数量)
[思考] 鸡2只脚,兔4只脚:2x + 4y = 94(脚的数量)
[思考] 从第一个方程:y = 35 - x
[思考] 代入第二个方程:2x + 4(35-x) = 94
[思考] 2x + 140 - 4x = 94
[思考] -2x = -46
[思考] x = 23
[验证] 检验:23只鸡 + 12只兔 = 35头 ✓
[验证] 23*2 + 12*4 = 46 + 48 = 94脚 ✓
答案:鸡有23只
|
2. Test-Time Compute(测试时计算)#
传统观点:模型能力在训练后就固定了。
o3 的突破:推理时投入更多计算,性能就更好。
1
2
3
4
5
6
7
8
9
| 低计算模式(o3-mini):
├── 思考步骤:10步
├── 时间:5秒
└── 准确率:75%
高计算模式(o3-high):
├── 思考步骤:100步
├── 时间:60秒
└── 准确率:87.5%
|
这就像:
- 考试时间10分钟 vs 考试时间1小时
- 时间越多,复杂题目得分越高
3. Self-Verification(自我验证)#
o3 会自己检查自己的答案:
1
2
3
4
5
6
7
8
| [生成] 初步答案:x = 25
[验证] 代入检验:25 + y = 35, y = 10
[验证] 2*25 + 4*10 = 90 ≠ 94
[结论] 答案错误,重新计算
[生成] 修正答案:x = 23
[验证] 23 + 12 = 35 ✓
[验证] 2*23 + 4*12 = 94 ✓
[结论] 答案正确
|
4. Program Synthesis(程序合成)#
对于ARC-AGI这类任务,o3 会在内部"写代码"来解决问题:
1
2
3
4
5
6
7
8
9
10
11
12
| 输入:3x3网格变换规律
[1,0,0] [0,0,1]
[0,1,0] → [0,1,0]
[0,0,1] [1,0,0]
o3内部推理:
[假设] 可能是水平翻转?
[验证] 测试...不对
[假设] 可能是沿反对角线翻转?
[验证] 测试...正确!
[生成] 变换函数:transpose + vertical_flip
[应用] 将函数应用到测试输入
|
ARC-AGI 测试解析#
什么是 ARC-AGI?#
ARC-AGI(Abstraction and Reasoning Corpus)是一个专门测试"通用智能"的测试集。
特点:
- 每道题都是全新的,不能靠记忆
- 需要发现抽象规律
- 只给少量示例,需要举一反三
示例题目#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
| 示例1:
输入:[■□□] 输出:[□□■]
[□■□] [□■□]
[□□■] [■□□]
示例2:
输入:[■■□] 输出:[□■■]
[□□□] [□□□]
[□□□] [□□□]
测试:
输入:[■□■] 输出:???
[□■□]
[■□■]
|
你能看出规律吗?
答案:水平翻转。
为什么 ARC-AGI 难?#
- 不能靠记忆:题目都是新的
- 需要抽象:从具体到一般
- 少样本学习:只有2-3个示例
- 组合爆炸:可能的规律太多
人类能做到85%,之前的AI只有5%。
o3 如何达到 87.5%?#
1
2
3
4
| 计算量对比:
├── o3-mini (低计算): 75%
├── o3-high (高计算): 87.5%
└── 计算成本: ~$1000/题(高计算模式)
|
关键洞察:
- 足够的计算量 + 正确的推理方法 = 超越人类
- 但成本极高(每道题花费$1000)
o3 能做什么?#
1. 数学竞赛#
1
2
3
4
| AIME 2024(美国数学邀请赛):
├── GPT-4: 40%
├── o1: 83%
└── o3: 96% ← 接近满分
|
2. 编程竞赛#
1
2
3
4
| Codeforces Rating:
├── GPT-4: 800 (入门级)
├── o1: 1800 (专家级)
└── o3: 2700+ (特级大师) ← 超越99%人类选手
|
3. 科学推理#
1
2
3
4
| GPQA Diamond(研究生级科学问答):
├── GPT-4: 50%
├── o1: 78%
└── o3: 87% ← 接近领域专家
|
4. 代码生成#
1
2
3
4
5
| SWE-bench Verified(真实软件工程任务):
├── GPT-4: 23%
├── Claude 3.5: 49%
├── o1: 48%
└── o3: 71% ← 大幅领先
|
o3 的局限性#
1. 成本问题#
1
2
3
4
5
6
7
| ARC-AGI高计算模式:$1000/题
普通任务(o3-mini):比o1贵3-5倍
对比:
├── GPT-4o: $0.0025/1K tokens
├── o1: $0.015/1K tokens
└── o3: $0.05+/1K tokens (估计)
|
2. 速度问题#
1
2
3
4
5
6
7
| 简单问题:
├── GPT-4o: 1秒
└── o3: 10秒+
复杂问题:
├── GPT-4o: 2秒
└── o3: 1-5分钟
|
3. 不是真的"通用"#
ARC-AGI创始人Francois Chollet的评价:
“o3达到了87.5%,这很impressive。但它在每道题上花费的计算量是人类的1000倍以上。而且它仍然会在一些对人类来说显而易见的题目上失败。”
4. 可能的"记忆污染"#
有人质疑:o3是否"见过"ARC-AGI的训练集?
OpenAI声称使用了全新的测试题,但这个争议仍在持续。
这意味着AGI吗?#
乐观派观点#
1
2
3
4
| ✓ 在抽象推理测试上超越人类
✓ 数学、编程能力接近顶尖人类
✓ 表明"足够的计算+正确的方法=通用智能"
✓ AGI可能在3-5年内实现
|
保守派观点#
1
2
3
4
| ✗ 效率太低(人类用大脑0.1%的能量解题)
✗ 仍然是"窄AI"(只是更宽的窄)
✗ 没有真正的理解,只是更好的模式匹配
✗ AGI需要根本性的新范式
|
我的看法#
o3 确实是一个里程碑,但它更像是:
量变引发的质变,而非范式转换
它告诉我们:
- 当前技术路线是对的(Transformer + 推理 + 大计算)
- 扩展定律(Scaling Law)仍在奏效
- 但真正的AGI可能需要效率的10000倍提升
对开发者的影响#
现在可以做的#
数学/科学应用
高级编程任务
决策支持
API 使用建议#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
| from openai import OpenAI
client = OpenAI()
# 选择合适的模型
# 简单任务:用 gpt-4o(便宜快速)
# 复杂推理:用 o3-mini(平衡选择)
# 极难问题:用 o3(成本高但准确)
response = client.chat.completions.create(
model="o3-mini", # 或 "o3"
messages=[
{"role": "user", "content": "证明勾股定理"}
],
# o3 特有参数
reasoning_effort="medium" # low/medium/high
)
|
工作流设计#
1
2
3
4
5
6
7
8
9
10
11
| 用户问题
↓
[难度判断] → 简单 → GPT-4o
↓
复杂
↓
[o3-mini尝试]
↓
失败/不确定
↓
[o3-high重试]
|
未来展望#
短期(2025)#
- o3 正式发布和定价
- 更便宜的 o3-mini 版本
- 与 GPT-5 的整合(动态路由)
中期(2026-2027)#
- 推理成本下降100倍
- 实时推理成为可能
- 推理模型成为标配
长期(2028+)#
- 推理+学习的结合
- 自我改进的AI系统
- 可能接近AGI?
o3 是AI推理能力的重大突破:
- 能力:数学、编程、科学推理接近或超越人类专家
- 原理:思维链 + 测试时计算 + 自我验证
- 局限:成本高、速度慢、效率低
- 意义:证明了当前技术路线的潜力
对于开发者:
- 复杂推理任务有了新工具
- 需要学会在性能和成本之间平衡
- 关注后续的成本优化
对于普通人:
- AI正在变得越来越"聪明"
- 但真正的AGI可能还需要时间
- 保持关注,保持学习