OpenAI 直接把
GPT-5 级别的推理能力
塞进了实时语音,推出了 GPT-Realtime-2。这下语音助手终于不是"听完再说"了,而是能
边听边想、边聊边解决问题
。真正的实时思考来了。
这个音频模型直接登顶,把前不久的 Google Gemini-3.1-Flash-Live 甩在身后,领先幅度还挺明显。
指令保留率从上一代的 36.7% 直接翻倍到 70.8%
,语音编辑能力也很强。
这个提升其实很重要,以前你交代它做的事,它经常做到一半就"忘",现在基本能记住。指令保留率翻倍,对语音 agent 来说意义很大,
复杂任务的完成率会跟着大幅提升
。
把推理能力接入语音,意味着
"语音只能表达简单意图"的时代彻底结束了
。
以后语音 AI 的瓶颈不再是转录准不准,而是
工具调用时的边界控制
。在工具交接那一刻进行实时拦截,反而会成为最重要的安全机制。
这是个微妙但结构性的变化,对做语音产品的人影响很大。
最让我兴奋的是 GPT-Realtime-Translate,这才是我心目中真正的同声传译。
不用等对方说完一段,它就能
voice-to-voice 实时翻译
:我说中文,对方立刻听到英文;他说英文,我立刻听到中文,几乎没有停顿。
支持
70+ 种输入语言、13 种输出语言
,还能识别口音和方言。这东西在旅游、国际商务、政治会谈里完全是降维的,语言障碍正在被快速干掉。
和原版 Whisper 完全不同,以前是录完整段音频再处理,现在是
流式处理,边说边转,延迟极低
。这个底层架构的转变,直接把实时翻译从"可用"推到了"自然"。
我自己把 tuwa 的翻译 agent 跑了 e2e 测试,优势非常明显,速度是真的快。
但缺点也很清楚:不能自定义声音(它自己动态模仿),而且因为不是 VAD 切段,有时候上下文没整合好就会翻错。
它不会等你说完一个完整语义段落再翻译
。这个问题在长句、复杂句式里会更明显,用的时候得有预期。不过整体体验已经够强,我准备全面切换到这个模型。幸好 tuwa 早就支持多模型路由,切换很方便。
同时发布的 GPT-Realtime-Whisper 主打
实时转录和字幕生成
,会议记录、直播字幕、语音笔记都能高效搞定,边说边出结果。对需要精准转录的场景来说,
延迟低、准确率高这两点同时满足
,之前很难做到。
我把 GPT-Realtime-2 接入 Chormex,现在 YouTube、直播、会议、演示文稿都能实时翻译,同时还能让 AI 在视频播放过程中同步总结、解释、记笔记。
有点不真实的感觉,
浏览器正在变成真正的实时 AI 操作系统
。
核心突破在于
实时性 + 深度推理同时上线
。这直接把以前很多语音 AI 公司的护城河压平了,过去靠低延迟或垂直场景积累的优势,现在被基础模型一次性拉平。对独立做语音 AI 的团队来说,
差异化的空间在快速收窄
。
下游影响最明显的四个领域:
客服、教育、车机、智能硬件
。
这四类产品的共同点是语音是核心交互入口,以前受限于模型能力没法做复杂任务,现在这个限制基本解除了。
Anthropic 在端到端语音上目前还没动静,
OpenAI 又抢到了至少半年的身位
。
我们正在快速接近一个"互联网上语言障碍彻底消失"的世界。