o3 是什么?

2024年12月,OpenAI 发布了 o3,这是继 o1 之后的第二代推理模型(reasoning model)。

它在 ARC-AGI 测试中取得了 87.5% 的准确率,而此前最好的AI系统只有5%,人类平均水平是85%。

这意味着什么?

o3 第一次在"智力测试"级别的任务上,达到甚至超越了人类水平


推理模型 vs 普通模型

普通大模型(GPT-4、Claude等)

1
2
3
4
5
6
输入 → [神经网络] → 输出

特点:
- 单次前向传播
- 固定计算量
- 直觉式回答

就像人类的"快思考"(System 1):看到问题,直接凭直觉回答。

推理模型(o1、o3)

1
2
3
4
5
6
输入 → [思考] → [验证] → [思考] → [验证] → ... → 输出

特点:
- 多轮迭代推理
- 计算量可变(越难越久)
- 逻辑式推导

就像人类的"慢思考"(System 2):遇到难题,一步步推导验证。


o3 的核心技术

1. Chain-of-Thought(思维链)

o3 会在内部生成详细的推理过程:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
问题:一个农场有鸡和兔,共35个头,94只脚,问鸡有多少只?

o3的思考过程:
[思考] 设鸡有x只,兔有y只
[思考] 根据题意:x + y = 35(头的数量)
[思考] 鸡2只脚,兔4只脚:2x + 4y = 94(脚的数量)
[思考] 从第一个方程:y = 35 - x
[思考] 代入第二个方程:2x + 4(35-x) = 94
[思考] 2x + 140 - 4x = 94
[思考] -2x = -46
[思考] x = 23
[验证] 检验:23只鸡 + 12只兔 = 35头 ✓
[验证] 23*2 + 12*4 = 46 + 48 = 94脚 ✓

答案:鸡有23只

2. Test-Time Compute(测试时计算)

传统观点:模型能力在训练后就固定了。

o3 的突破:推理时投入更多计算,性能就更好

1
2
3
4
5
6
7
8
9
低计算模式(o3-mini):
├── 思考步骤:10步
├── 时间:5秒
└── 准确率:75%

高计算模式(o3-high):
├── 思考步骤:100步
├── 时间:60秒
└── 准确率:87.5%

这就像:

  • 考试时间10分钟 vs 考试时间1小时
  • 时间越多,复杂题目得分越高

3. Self-Verification(自我验证)

o3 会自己检查自己的答案:

1
2
3
4
5
6
7
8
[生成] 初步答案:x = 25
[验证] 代入检验:25 + y = 35, y = 10
[验证] 2*25 + 4*10 = 90 ≠ 94
[结论] 答案错误,重新计算
[生成] 修正答案:x = 23
[验证] 23 + 12 = 35 ✓
[验证] 2*23 + 4*12 = 94 ✓
[结论] 答案正确

4. Program Synthesis(程序合成)

对于ARC-AGI这类任务,o3 会在内部"写代码"来解决问题:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
输入:3x3网格变换规律
     [1,0,0]    [0,0,1]
     [0,1,0] → [0,1,0]
     [0,0,1]    [1,0,0]

o3内部推理:
[假设] 可能是水平翻转?
[验证] 测试...不对
[假设] 可能是沿反对角线翻转?
[验证] 测试...正确!
[生成] 变换函数:transpose + vertical_flip
[应用] 将函数应用到测试输入

ARC-AGI 测试解析

什么是 ARC-AGI?

ARC-AGI(Abstraction and Reasoning Corpus)是一个专门测试"通用智能"的测试集。

特点:

  • 每道题都是全新的,不能靠记忆
  • 需要发现抽象规律
  • 只给少量示例,需要举一反三

示例题目

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
示例1:
输入:[■□□]  输出:[□□■]
       [□■□]        [□■□]
       [□□■]        [■□□]

示例2:
输入:[■■□]  输出:[□■■]
       [□□□]        [□□□]
       [□□□]        [□□□]

测试:
输入:[■□■]  输出:???
       [□■□]
       [■□■]

你能看出规律吗?

答案:水平翻转。

为什么 ARC-AGI 难?

  1. 不能靠记忆:题目都是新的
  2. 需要抽象:从具体到一般
  3. 少样本学习:只有2-3个示例
  4. 组合爆炸:可能的规律太多

人类能做到85%,之前的AI只有5%。

o3 如何达到 87.5%?

1
2
3
4
计算量对比:
├── o3-mini (低计算): 75%
├── o3-high (高计算): 87.5%
└── 计算成本: ~$1000/题(高计算模式)

关键洞察:

  • 足够的计算量 + 正确的推理方法 = 超越人类
  • 但成本极高(每道题花费$1000)

o3 能做什么?

1. 数学竞赛

1
2
3
4
AIME 2024(美国数学邀请赛):
├── GPT-4: 40%
├── o1: 83%
└── o3: 96%  ← 接近满分

2. 编程竞赛

1
2
3
4
Codeforces Rating:
├── GPT-4: 800 (入门级)
├── o1: 1800 (专家级)
└── o3: 2700+ (特级大师) ← 超越99%人类选手

3. 科学推理

1
2
3
4
GPQA Diamond(研究生级科学问答):
├── GPT-4: 50%
├── o1: 78%
└── o3: 87%  ← 接近领域专家

4. 代码生成

1
2
3
4
5
SWE-bench Verified(真实软件工程任务):
├── GPT-4: 23%
├── Claude 3.5: 49%
├── o1: 48%
└── o3: 71%  ← 大幅领先

o3 的局限性

1. 成本问题

1
2
3
4
5
6
7
ARC-AGI高计算模式:$1000/题
普通任务(o3-mini):比o1贵3-5倍

对比:
├── GPT-4o: $0.0025/1K tokens
├── o1: $0.015/1K tokens
└── o3: $0.05+/1K tokens (估计)

2. 速度问题

1
2
3
4
5
6
7
简单问题:
├── GPT-4o: 1秒
└── o3: 10秒+

复杂问题:
├── GPT-4o: 2秒
└── o3: 1-5分钟

3. 不是真的"通用"

ARC-AGI创始人Francois Chollet的评价:

“o3达到了87.5%,这很impressive。但它在每道题上花费的计算量是人类的1000倍以上。而且它仍然会在一些对人类来说显而易见的题目上失败。”

4. 可能的"记忆污染"

有人质疑:o3是否"见过"ARC-AGI的训练集?

OpenAI声称使用了全新的测试题,但这个争议仍在持续。


这意味着AGI吗?

乐观派观点

1
2
3
4
✓ 在抽象推理测试上超越人类
✓ 数学、编程能力接近顶尖人类
✓ 表明"足够的计算+正确的方法=通用智能"
✓ AGI可能在3-5年内实现

保守派观点

1
2
3
4
✗ 效率太低(人类用大脑0.1%的能量解题)
✗ 仍然是"窄AI"(只是更宽的窄)
✗ 没有真正的理解,只是更好的模式匹配
✗ AGI需要根本性的新范式

我的看法

o3 确实是一个里程碑,但它更像是:

量变引发的质变,而非范式转换

它告诉我们:

  1. 当前技术路线是对的(Transformer + 推理 + 大计算)
  2. 扩展定律(Scaling Law)仍在奏效
  3. 但真正的AGI可能需要效率的10000倍提升

对开发者的影响

现在可以做的

  1. 数学/科学应用

    • 自动定理证明
    • 科研助手
    • 教育辅导
  2. 高级编程任务

    • 复杂算法实现
    • 代码推理和调试
    • 自动化测试生成
  3. 决策支持

    • 复杂问题分析
    • 多因素推理
    • 风险评估

API 使用建议

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
from openai import OpenAI

client = OpenAI()

# 选择合适的模型
# 简单任务:用 gpt-4o(便宜快速)
# 复杂推理:用 o3-mini(平衡选择)
# 极难问题:用 o3(成本高但准确)

response = client.chat.completions.create(
    model="o3-mini",  # 或 "o3"
    messages=[
        {"role": "user", "content": "证明勾股定理"}
    ],
    # o3 特有参数
    reasoning_effort="medium"  # low/medium/high
)

工作流设计

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
用户问题
[难度判断] → 简单 → GPT-4o
   复杂
[o3-mini尝试]
 失败/不确定
[o3-high重试]

未来展望

短期(2025)

  • o3 正式发布和定价
  • 更便宜的 o3-mini 版本
  • 与 GPT-5 的整合(动态路由)

中期(2026-2027)

  • 推理成本下降100倍
  • 实时推理成为可能
  • 推理模型成为标配

长期(2028+)

  • 推理+学习的结合
  • 自我改进的AI系统
  • 可能接近AGI?

总结

o3 是AI推理能力的重大突破:

  1. 能力:数学、编程、科学推理接近或超越人类专家
  2. 原理:思维链 + 测试时计算 + 自我验证
  3. 局限:成本高、速度慢、效率低
  4. 意义:证明了当前技术路线的潜力

对于开发者:

  • 复杂推理任务有了新工具
  • 需要学会在性能和成本之间平衡
  • 关注后续的成本优化

对于普通人:

  • AI正在变得越来越"聪明"
  • 但真正的AGI可能还需要时间
  • 保持关注,保持学习