Bidi 1出鞘:实时翻译的双向时刻到来

2026.06.23 18:30
OpenAI正在为ChatGPT准备下一代双向语音模型Bidi 1,将实时翻译能力直接嵌入消费者端语音模式。从2024年GPT-4o惊艳的语音演示到2026年GPT-Realtime-Translate API,再到如今Bidi 1——语言障碍正在被压缩为一个模型参数,实时双向语音翻译的"iPhone时刻"即将到来。

"OPENAI 🔥: An upcoming Bidi 1 voice model will be able to translate in real-time! This will unlock a huge pile of use cases."

北京时间2026年6月23日,TestingCatalog在X上连发数条爆料:OpenAI的下一代双向语音模型"Bidi 1"即将到来,第一轮测试已经开始,Web端发布已在准备中。更关键的是——Bidi 1将直接在ChatGPT中内置实时翻译能力。

如果把这条消息放在一条完整的时间线上看——从2024年5月GPT-4o发布会上Mira Murati用意大利语和ChatGPT对话的惊艳演示,到2025年6月ChatGPT Advanced Voice Mode上线实时翻译功能,再到2026年5月GPT-Realtime-Translate API面向开发者开放覆盖70+输入语言,再到今天Bidi 1被曝将双向实时翻译能力直接嵌入ChatGPT语音模式——你会发现一条清晰的线索:

OpenAI正在为语音AI铺设一条从"你一句我一句"到"双向自由对话"的进化路径。而Bidi 1,就是这条路径上最关键的里程碑。

一、现象:双向翻译,为什么是一个"巨大"的信号?

6月的代码泄露与测试

2026年6月16日,开发者M1Astra在ChatGPT的代码中发现了"gpt-bidi-1"模型引用,标记为"coming soon with a major leap in intelligence"。随后TestingCatalog确认了这一发现,并报道称OpenAI正在准备一次"major ChatGPT voice upgrade"——GPT-Bidi-1,一个基于双向音频架构(BiDirectional Audio)的下一代语音模型。

一周后的6月23日,TestingCatalog连发多条更新:Bidi 1的第一轮测试已经开始,Web端发布的设置页面已经就绪(语音模式气泡将从蓝色变为黄色),最关键的是——Bidi 1将具备实时翻译能力。

Bidi = BiDirectional。传统语音助手的工作模式是"说→听→说"的单向交替——你说话时AI闭嘴,AI说话时你闭嘴。双向音频模型则打破了这一限制:AI可以一边听你说话一边回应,可以在被中断后自适应地跟上,可以一边处理你的请求一边在后台调用工具。根据TestingCatalog的描述,Bidi 1在测试中已经能做到"在你说话的同时继续输出语音并保持听取"。

从API到消费者:GPT-Realtime-Translate → Bidi 1

这并非OpenAI第一次涉足实时翻译。2026年5月7日,OpenAI发布了三个全新的Realtime Audio模型:

  • GPT-Realtime-2:首款具备GPT-5级推理能力的语音模型,支持128K上下文、工具调用、中断恢复
  • GPT-Realtime-Translate:实时语音翻译模型,支持70+输入语言到13种输出语言的流式翻译
  • GPT-Realtime-Whisper:流式语音转文本模型

OpenAI的Romain Huet在演示中展示了GPT-Realtime-Translate如何实现"speaker-paced"翻译——模型在说话者还没有说完一句话时就开始处理与输出翻译。据Slator援引OpenAI的材料,该模型使用了"数百小时真人译员数据"进行训练,学会"等待足够上下文后再生成翻译",而非逐字逐句地硬翻。

但GPT-Realtime-Translate是一个API产品,面向开发者。Bidi 1的不同之处在于:它是ChatGPT消费者端的原生语音模式升级,意味着数亿ChatGPT用户将直接获得双向实时翻译能力,无需任何开发集成。TestingCatalog的爆料标题已经把这一点说得很直白:"解锁巨大的使用场景"。

二、分析:双向实时翻译的"三重解锁"

第一重解锁:从"单声道"到"立体声"的技术跨越

当前的实时翻译技术路径通常走的是"三段式"管道:ASR(语音识别)→ MT(机器翻译)→ TTS(语音合成)。每一段都有延迟和误差,叠加起来端到端延迟通常在1.5到3秒之间。

OpenAI早在GPT-4o时代就开始探索end-to-end speech-to-speech路线——直接在音频层面理解语义并输出语音,绕过了文本中转的损耗。GPT-Realtime-Translate进一步在70+输入语言到13种输出语言的范围内实现了speaker-paced翻译。据第三方基准评测机构Artificial Analysis的数据,GPT-Realtime-2在Big Bench Audio语音推理基准上达到96.6%,平均首次音频响应时间在高推理模式下仅为2.33秒。

Bidi 1的"双向"特性把问题推向了更高维度:当两个说不同语言的人同时说话时,模型需要并行处理两条语音流,实时区分谁在说哪种语言,并且让翻译后的语音不互相覆盖。这在工程上的难度是级数增长的——不是简单地把两个"单向翻译"拼在一起就能解决的问题。

从OpenAI开发者社区论坛的用户反馈来看,开发者已经在尝试利用Realtime API构建双向翻译场景,但遇到了"单条语音流被翻译成多个语言导致重叠"的问题。Bidi 1被普遍认为是OpenAI针对这一场景推出的原生解决方案——整合了双向音频架构和实时翻译的端到端模型。

第二重解锁:语言边界的消失——使用场景爆炸

"70+输入语言到13种输出语言"这个规格意味着什么?

它意味着全球使用人口排名前70的语言几乎都在支持范围内。从一个只会说中文的旅行者在东京用日语问路,到一个西班牙语母语者在柏林直接参加德语会议,再到一个阿拉伯语客服代表无障碍地服务英语客户——语言障碍正在被压缩为模型的一个参数。

具体场景的想象空间极其巨大:

  • 跨国会议:不再需要同声传译设备,每个参会者用自己手机上的ChatGPT就能实时收听对方语言的翻译版本
  • 旅游与酒店:Check-in、餐厅点餐、问路——语言障碍几乎消失
  • 医疗问诊:外籍患者与本地医生之间的即时沟通
  • 客服中心:单一语言客服团队可以服务全球客户
  • 教育与培训:跨国课堂里的实时翻译,老师和学生各说各的语言
  • 社交与交友:语言不再是跨国社交的障碍

这些场景并非空想。OpenAI官方博客显示,Deutsche Telekom、Zillow、Priceline等公司已经在使用GPT-Realtime-2和GPT-Realtime-Translate构建多语言客服和旅行助手。当Bidi 1把同样的能力带到消费者端,这个列表只会更快地变成现实。

第三重解锁:竞争格局——OpenAI的"双向"护城河

实时语音翻译赛道的竞争格局正在快速变化:

  • Google:谷歌翻译拥有最多语言对(130+),但实时对话模式的流畅度远不及OpenAI。Gemini Live支持语音交互,但实时翻译并非其核心卖点。
  • DeepL:以高精度翻译著称,2026年春季发布会上宣布正在推进voice-to-voice翻译,但其覆盖语言数远低于OpenAI。
  • ElevenLabs:语音合成领域的领头羊,2026年推出的Scribe v2支持90+语言的流式STT,但端到端speech-to-speech翻译的布局仍处于早期阶段。
  • Soniox:在纯翻译API市场以低价策略切入(约0.18美元/小时),但缺乏消费者端产品。
  • 微软:Azure AI Speech提供翻译功能,但作为OpenAI的深度合作伙伴,微软极有可能在Copilot中直接集成Bidi 1的能力。

OpenAI的独特优势在于两条腿走路:一是end-to-end speech-to-speech模型的技术壁垒(绕过三段式管道的延迟累积),二是ChatGPT数亿消费者用户基础。GPT-Realtime-Translate面向开发者提供API能力,Bidi 1直接惠及终端用户——这个"API+消费者"的双轮驱动,让竞争对手很难同时在两个维度上做出同等力度的回应。

此外,根据TestingCatalog的报道,Bidi 1将提供三级智能模式:High、Medium和Instant,与ChatGPT文本侧的推理层级设置对齐。这意味着用户可以根据场景在翻译精度和响应速度之间自由切换——在正式会议中选择High模式,在日常闲聊中选择Instant模式。

三、不确定性与风险

这并不是一篇"OpenAI又要碾压一切"的叙事。

Bidi 1目前仍处于"rumor + code sighting + first tests"阶段。模型最终名称在正式发布前可能变动——TestingCatalog也标注了"final naming of the model might change"。实时翻译的质量是否能达到"可商用"水平,仍需等到正式发布后的独立测试。

此外,双向实时翻译涉及的语言多样性和口音适配是长期挑战。70+输入语言的表现是否均衡?对低资源语言和方言的支持如何?这些都需要实测数据说话。

在商业模式上,Bidi 1的定价策略尚不明朗。ChatGPT的Advanced Voice Mode目前包含在Plus/Pro订阅中。如果Bidi 1的实时翻译功能需要更高的算力成本——GPT-Realtime-2的API定价约为32美元/百万输入Token和64美元/百万输出Token,三级智能模式的算力消耗差异巨大——OpenAI如何在消费者定价中平衡成本和可及性,将是一个关键考验。

还有一个更根本的问题:当实时翻译变成ChatGPT的默认能力而非付费卖点,竞争对手会以怎样的方式回应?如果Google在其20亿用户的谷歌翻译中直接嵌入Gemini驱动的实时双向翻译,如果DeepL推出更具竞争力的消费者端产品——这场语言墙的拆除将不是任何一家公司的独家叙事。

结论:当语言成为"选项"而非"障碍"

2024年GPT-4o的实时翻译演示让行业第一次看到了"语音AI翻译"的可能性。2025年6月AVM在ChatGPT中上线翻译功能。2026年5月GPT-Realtime-Translate API让开发者可以构建自己的翻译应用。而Bidi 1,可能让实时翻译从一个"开发者才能调用的API能力",变成一个"每个ChatGPT用户口袋里都有"的日常工具。

这是典型的OpenAI路径:先做基础模型,再做开发者API,最后做消费者产品。每一步不仅扩大了市场,也在收集更多数据来迭代模型。

实时翻译的价值不在于"翻译"本身——翻译这件事人类已经做了一千年。它的价值在于:当翻译的延迟降到了人类感知不到的程度,当任何语言的人都可以在同一个对话空间里自然地交流,语言就从一个"障碍"变成了一个"选项"。

这就是Bidi 1要撬动的那个"huge pile of use cases"。

语言,从此不再是墙。

作品声明:内容由AI生成