GPT-Realtime-2 把 GPT-5 级推理塞进实时语音，边聊边解决问题

智明了智明

站酷推荐设计师

站酷超级AI设计师

高高手老师

南宁/设计爱好者/4天前/486浏览

版权

GPT-Realtime-2 把 GPT-5 级推理塞进实时语音，边聊边解决问题

智明了智明

GPT-Realtime-2：语音终于会"思考"了

OpenAI 直接把

GPT-5 级别的推理能力

塞进了实时语音，推出了 GPT-Realtime-2。这下语音助手终于不是"听完再说"了，而是能

边听边想、边聊边解决问题

。真正的实时思考来了。

这个音频模型直接登顶，把前不久的 Google Gemini-3.1-Flash-Live 甩在身后，领先幅度还挺明显。

指令保留率从上一代的 36.7% 直接翻倍到 70.8%

，语音编辑能力也很强。

这个提升其实很重要，以前你交代它做的事，它经常做到一半就"忘"，现在基本能记住。指令保留率翻倍，对语音 agent 来说意义很大，

复杂任务的完成率会跟着大幅提升

。

把推理能力接入语音，意味着

"语音只能表达简单意图"的时代彻底结束了

。

以后语音 AI 的瓶颈不再是转录准不准，而是

工具调用时的边界控制

。在工具交接那一刻进行实时拦截，反而会成为最重要的安全机制。

这是个微妙但结构性的变化，对做语音产品的人影响很大。

GPT-Realtime-Translate：真正的同声传译

最让我兴奋的是 GPT-Realtime-Translate，这才是我心目中真正的同声传译。

不用等对方说完一段，它就能

voice-to-voice 实时翻译

：我说中文，对方立刻听到英文；他说英文，我立刻听到中文，几乎没有停顿。

支持

70+ 种输入语言、13 种输出语言

，还能识别口音和方言。这东西在旅游、国际商务、政治会谈里完全是降维的，语言障碍正在被快速干掉。

和原版 Whisper 完全不同，以前是录完整段音频再处理，现在是

流式处理，边说边转，延迟极低

。这个底层架构的转变，直接把实时翻译从"可用"推到了"自然"。

我自己把 tuwa 的翻译 agent 跑了 e2e 测试，优势非常明显，速度是真的快。

但缺点也很清楚：不能自定义声音（它自己动态模仿），而且因为不是 VAD 切段，有时候上下文没整合好就会翻错。

它不会等你说完一个完整语义段落再翻译

。这个问题在长句、复杂句式里会更明显，用的时候得有预期。不过整体体验已经够强，我准备全面切换到这个模型。幸好 tuwa 早就支持多模型路由，切换很方便。

GPT-Realtime-Whisper：实时转录和字幕

同时发布的 GPT-Realtime-Whisper 主打

实时转录和字幕生成

，会议记录、直播字幕、语音笔记都能高效搞定，边说边出结果。对需要精准转录的场景来说，

延迟低、准确率高这两点同时满足

，之前很难做到。

我把 GPT-Realtime-2 接入 Chormex，现在 YouTube、直播、会议、演示文稿都能实时翻译，同时还能让 AI 在视频播放过程中同步总结、解释、记笔记。

有点不真实的感觉，

浏览器正在变成真正的实时 AI 操作系统

。

影响和判断

核心突破在于

实时性 + 深度推理同时上线

。这直接把以前很多语音 AI 公司的护城河压平了，过去靠低延迟或垂直场景积累的优势，现在被基础模型一次性拉平。对独立做语音 AI 的团队来说，

差异化的空间在快速收窄

。

下游影响最明显的四个领域：

客服、教育、车机、智能硬件

。

这四类产品的共同点是语音是核心交互入口，以前受限于模型能力没法做复杂任务，现在这个限制基本解除了。

Anthropic 在端到端语音上目前还没动静，

OpenAI 又抢到了至少半年的身位

。

我们正在快速接近一个"互联网上语言障碍彻底消失"的世界。

0

举报

|

声明

1

分享

原创文章 AI创作

相关推荐

装上 Codex Chrome 插件，它直接变成我浏览器里的顶级打工人

装上 Codex Chrome 插件，它直接变成我浏览器里的顶级打工人

332

智明了智明

站酷推荐设计师

站酷超级AI设计师

伦敦艺术大学丨研一丨数字媒体丨吴同学丨向量设计

伦敦艺术大学丨研一丨数字媒体丨吴同学丨向量设计

28

武汉向量设计

已加入PRO计划

推广

Claude Design 滑块一拉就能调颜色、实时看效果……这才是我梦寐以求的AI协作方式！

Claude Design 滑块一拉就能调颜色、实时看效果……这才是我梦寐以求的AI协作方式！

18

智明了智明

站酷推荐设计师

站酷超级AI设计师

GPT-5.5 Instant 来了，它终于不说废话了

GPT-5.5 Instant 来了，它终于不说废话了

22

智明了智明

站酷推荐设计师

站酷超级AI设计师

用 Codex 做 UI/UX 设计，像开了个实时协作团队，设计闭环彻底跑通

用 Codex 做 UI/UX 设计，像开了个实时协作团队，设计闭环彻底跑通

422

智明了智明

站酷推荐设计师

站酷超级AI设计师

学习学习

学习学习

学习学习

学习学习

已加入PRO计划

给所有人的 Claude 入门，读完比 90% 的人都懂

给所有人的 Claude 入门，读完比 90% 的人都懂

24

智明了智明

站酷推荐设计师

站酷超级AI设计师

Claude 的 Cowork 藏了这些功能没人说，难怪我一直用不对

Claude 的 Cowork 藏了这些功能没人说，难怪我一直用不对

23

智明了智明

站酷推荐设计师

站酷超级AI设计师

OpenAI Codex 也出宠物系统了，已路转粉，我养了只哥布林之后就再没关过它

OpenAI Codex 也出宠物系统了，已路转粉，我养了只哥布林之后就再没关过它

26

智明了智明

站酷推荐设计师

站酷超级AI设计师

GPT越来越像聪明但叛逆的儿子，Claude越来越像死板但听话的员工

GPT越来越像聪明但叛逆的儿子，Claude越来越像死板但听话的员工

24

智明了智明

站酷推荐设计师

站酷超级AI设计师

提示词直接砍一半，GPT-5.5 真不用哄了

提示词直接砍一半，GPT-5.5 真不用哄了

443

智明了智明

站酷推荐设计师

站酷超级AI设计师

评论

评论你的想法~

表情

喜欢TA的作品吗？喜欢就快来夸夸TA吧！

相关收藏夹

大家都在看

登录注册

推荐

1

评论

分享