生产力 | Chico's Tech Blog

2025 年 7 月,METR 做了一个实验。16 个资深开源开发者,每人在自己熟得不能再熟的项目里干活,平均经验 5 年。246 个真实任务,随机分两组:一组允许用 AI(主要是 Cursor Pro 配 Claude 3.5/3.7),一组不许用。实验前,这些人预测 AI 能让自己快 24%。干完之后,他们体感觉得 AI 让自己快了 20%。实测结果:用 AI 的那组,慢了 19%。这不是一个标题党段子。它是目前为止设计最干净的一个随机对照实验,而它的结论,跟你每天在朋友圈、在发布会、在融资 PPT 上看到的"10x 工程师"“生产力革命”,是相反的。所以这篇文章想认真聊一件事:AI 编程到底是不是泡沫。我的答案会比较啰嗦——它在某些环节是真东西,在另一些环节是被吹大的气球,而把这两件事混在一起卖,才是真正的泡沫所在。营销数字和实测数字,差在哪先把两组数字摆出来。营销侧的数字很漂亮:2026 年 84% 的开发者在用 AI 工具,AI 写了 41% 的新增商业代码,人均每周省下 3.6 小时。受控实验里,对那种"写一个函数"“生成一批单测"“铺一段样板代码"的细碎任务,提速 30%–55% 是常见的。这些数字没造假。问题在于它们都是任务级的数字——把镜头怼到"写代码"这一个动作上,AI 确实快。但你把镜头拉远到组织级,画面就变了。2025 年的 DORA 报告(Google 做的那份,样本是几千个真实团队)给出的结论很扎心:AI 让个人产出明显上涨——任务完成数 +21%,合并的 PR 数 +98%——但团队的交付速度,基本是平的。同一份报告里,AI 采用度和软件交付稳定性是负相关的。更具体的两个数字:每个开发者引入的 bug 数,涨了 54%(过去的数据集里这个数字只涨 9%);每个 PR 引发生产事故的概率,涨了 242.7%——也就是说,每合一次代码,捅出线上事故的概率翻了三倍多。看哪个层面数字谁在引用任务级:写一个函数提速 30%–55% 厂商、发布会个人级:周产出 PR +98%,任务 +21% 厂商、个人体感组织级:交付速度基本持平 DORA 2025 组织级:稳定性 bug +54%,事故/PR +242% DORA 2025 资深 + 成熟项目慢 19% METR RCT 同一件事,你站在不同的距离看,能得出完全相反的结论。营销永远站在最近的那个位置拍照。 ...