实时语音 API 横评:OpenAI、Gemini 与国内

先说一个反直觉的事实:2026 年了,真正跑在生产环境、扛着电话客服流量的语音 Agent,大多数还不是端到端语音 API 做的。 端到端听起来无可挑剔——语音直接进、语音直接出,中间不落文字,延迟低、情感保留好。OpenAI 的 gpt-realtime、Google 的 Gemini Live、豆包的端到端实时语音大模型,demo 都惊艳。但真把它塞进一个要上线的产品里,你会在第二周撞上几堵墙:它说错话你没法在中间拦一道、合规团队要审通话记录而你只有一段音频、客户要换个特定音色而 API 只给你 8 个预设。 所以选型这件事,不能只看 demo 的"哇"。这篇把实时语音 API 的关键维度摊开,再把 OpenAI、Gemini 和国内几家的真实定位讲清楚,最后按场景给建议。 先把"关键维度"对齐 挑实时语音 API,大家张口就是"延迟低不低"。延迟当然重要,但它只是八个维度里的一个。我把这八个维度列出来,你拿任何一个 API 去套都不会漏: 维度 它在问什么 容易被忽略的点 延迟 用户说完到 AI 出声多久 看的是首包,不是整句生成完 打断 能不能被插话、插得干不干净 误打断(噪音触发)比慢更恼人 音色 有多少声音、能不能定制/克隆 预设音色撑不起品牌化产品 语言 支持哪些语种、能否中途混说 方言、中英混说是国内刚需 价格 每分钟多少钱、缓存能省多少 端到端按音频 token 计费,贵 是否端到端 一个模型还是 ASR+LLM+TTS 决定了下面两项 可控性 能不能拦、能不能调试、能不能换 端到端是黑盒,这点最痛 合规 有没有文字记录可审计、数据落哪 金融/政务直接卡死非合规方案 后面三项——是否端到端、可控性、合规——是连在一起的一条逻辑链,也是真正决定选型的地方。延迟和音色反而是"达标就行"的项。 OpenAI Realtime:能力最强,也最贵 OpenAI 的 Realtime API 用的是 gpt-realtime 这个 speech-to-speech 模型,语音直接进出,一个模型一个接口搞定。它的强项是指令遵循和工具调用——你给它一段复杂的 system prompt、挂十个函数,它能稳稳地按规矩走、该调哪个调哪个。这一点上,目前没有对手。 ...

2026-04-19 · 2 min · Chico