Bidi 1出鞘:实时翻译的双向时刻到来

OpenAI正在为ChatGPT准备下一代双向语音模型Bidi 1，将实时翻译能力直接嵌入消费者端语音模式。从2024年GPT-4o惊艳的语音演示到2026年GPT-Realtime-Translate API，再到如今Bidi 1——语言障碍正在被压缩为一个模型参数，实时双向语音翻译的"iPhone时刻"即将到来。

"OPENAI 🔥: An upcoming Bidi 1 voice model will be able to translate in real-time! This will unlock a huge pile of use cases."

北京时间2026年6月23日，TestingCatalog在X上连发数条爆料：OpenAI的下一代双向语音模型"Bidi 1"即将到来，第一轮测试已经开始，Web端发布已在准备中。更关键的是——Bidi 1将直接在ChatGPT中内置实时翻译能力。

如果把这条消息放在一条完整的时间线上看——从2024年5月GPT-4o发布会上Mira Murati用意大利语和ChatGPT对话的惊艳演示，到2025年6月ChatGPT Advanced Voice Mode上线实时翻译功能，再到2026年5月GPT-Realtime-Translate API面向开发者开放覆盖70+输入语言，再到今天Bidi 1被曝将双向实时翻译能力直接嵌入ChatGPT语音模式——你会发现一条清晰的线索：

OpenAI正在为语音AI铺设一条从"你一句我一句"到"双向自由对话"的进化路径。而Bidi 1，就是这条路径上最关键的里程碑。

一、现象：双向翻译，为什么是一个"巨大"的信号？

6月的代码泄露与测试

2026年6月16日，开发者M1Astra在ChatGPT的代码中发现了"gpt-bidi-1"模型引用，标记为"coming soon with a major leap in intelligence"。随后TestingCatalog确认了这一发现，并报道称OpenAI正在准备一次"major ChatGPT voice upgrade"——GPT-Bidi-1，一个基于双向音频架构（BiDirectional Audio）的下一代语音模型。

一周后的6月23日，TestingCatalog连发多条更新：Bidi 1的第一轮测试已经开始，Web端发布的设置页面已经就绪（语音模式气泡将从蓝色变为黄色），最关键的是——Bidi 1将具备实时翻译能力。

Bidi = BiDirectional。传统语音助手的工作模式是"说→听→说"的单向交替——你说话时AI闭嘴，AI说话时你闭嘴。双向音频模型则打破了这一限制：AI可以一边听你说话一边回应，可以在被中断后自适应地跟上，可以一边处理你的请求一边在后台调用工具。根据TestingCatalog的描述，Bidi 1在测试中已经能做到"在你说话的同时继续输出语音并保持听取"。

从API到消费者：GPT-Realtime-Translate → Bidi 1

这并非OpenAI第一次涉足实时翻译。2026年5月7日，OpenAI发布了三个全新的Realtime Audio模型：

GPT-Realtime-2：首款具备GPT-5级推理能力的语音模型，支持128K上下文、工具调用、中断恢复
GPT-Realtime-Translate：实时语音翻译模型，支持70+输入语言到13种输出语言的流式翻译
GPT-Realtime-Whisper：流式语音转文本模型

OpenAI的Romain Huet在演示中展示了GPT-Realtime-Translate如何实现"speaker-paced"翻译——模型在说话者还没有说完一句话时就开始处理与输出翻译。据Slator援引OpenAI的材料，该模型使用了"数百小时真人译员数据"进行训练，学会"等待足够上下文后再生成翻译"，而非逐字逐句地硬翻。

但GPT-Realtime-Translate是一个API产品，面向开发者。Bidi 1的不同之处在于：它是ChatGPT消费者端的原生语音模式升级，意味着数亿ChatGPT用户将直接获得双向实时翻译能力，无需任何开发集成。TestingCatalog的爆料标题已经把这一点说得很直白："解锁巨大的使用场景"。

二、分析：双向实时翻译的"三重解锁"

第一重解锁：从"单声道"到"立体声"的技术跨越

当前的实时翻译技术路径通常走的是"三段式"管道：ASR（语音识别）→ MT（机器翻译）→ TTS（语音合成）。每一段都有延迟和误差，叠加起来端到端延迟通常在1.5到3秒之间。

OpenAI早在GPT-4o时代就开始探索end-to-end speech-to-speech路线——直接在音频层面理解语义并输出语音，绕过了文本中转的损耗。GPT-Realtime-Translate进一步在70+输入语言到13种输出语言的范围内实现了speaker-paced翻译。据第三方基准评测机构Artificial Analysis的数据，GPT-Realtime-2在Big Bench Audio语音推理基准上达到96.6%，平均首次音频响应时间在高推理模式下仅为2.33秒。

Bidi 1的"双向"特性把问题推向了更高维度：当两个说不同语言的人同时说话时，模型需要并行处理两条语音流，实时区分谁在说哪种语言，并且让翻译后的语音不互相覆盖。这在工程上的难度是级数增长的——不是简单地把两个"单向翻译"拼在一起就能解决的问题。

从OpenAI开发者社区论坛的用户反馈来看，开发者已经在尝试利用Realtime API构建双向翻译场景，但遇到了"单条语音流被翻译成多个语言导致重叠"的问题。Bidi 1被普遍认为是OpenAI针对这一场景推出的原生解决方案——整合了双向音频架构和实时翻译的端到端模型。

第二重解锁：语言边界的消失——使用场景爆炸

"70+输入语言到13种输出语言"这个规格意味着什么？

它意味着全球使用人口排名前70的语言几乎都在支持范围内。从一个只会说中文的旅行者在东京用日语问路，到一个西班牙语母语者在柏林直接参加德语会议，再到一个阿拉伯语客服代表无障碍地服务英语客户——语言障碍正在被压缩为模型的一个参数。

具体场景的想象空间极其巨大：

跨国会议：不再需要同声传译设备，每个参会者用自己手机上的ChatGPT就能实时收听对方语言的翻译版本
旅游与酒店：Check-in、餐厅点餐、问路——语言障碍几乎消失
医疗问诊：外籍患者与本地医生之间的即时沟通
客服中心：单一语言客服团队可以服务全球客户
教育与培训：跨国课堂里的实时翻译，老师和学生各说各的语言
社交与交友：语言不再是跨国社交的障碍

这些场景并非空想。OpenAI官方博客显示，Deutsche Telekom、Zillow、Priceline等公司已经在使用GPT-Realtime-2和GPT-Realtime-Translate构建多语言客服和旅行助手。当Bidi 1把同样的能力带到消费者端，这个列表只会更快地变成现实。

第三重解锁：竞争格局——OpenAI的"双向"护城河

实时语音翻译赛道的竞争格局正在快速变化：

Google：谷歌翻译拥有最多语言对（130+），但实时对话模式的流畅度远不及OpenAI。Gemini Live支持语音交互，但实时翻译并非其核心卖点。
DeepL：以高精度翻译著称，2026年春季发布会上宣布正在推进voice-to-voice翻译，但其覆盖语言数远低于OpenAI。
ElevenLabs：语音合成领域的领头羊，2026年推出的Scribe v2支持90+语言的流式STT，但端到端speech-to-speech翻译的布局仍处于早期阶段。
Soniox：在纯翻译API市场以低价策略切入（约0.18美元/小时），但缺乏消费者端产品。
微软：Azure AI Speech提供翻译功能，但作为OpenAI的深度合作伙伴，微软极有可能在Copilot中直接集成Bidi 1的能力。

OpenAI的独特优势在于两条腿走路：一是end-to-end speech-to-speech模型的技术壁垒（绕过三段式管道的延迟累积），二是ChatGPT数亿消费者用户基础。GPT-Realtime-Translate面向开发者提供API能力，Bidi 1直接惠及终端用户——这个"API+消费者"的双轮驱动，让竞争对手很难同时在两个维度上做出同等力度的回应。

此外，根据TestingCatalog的报道，Bidi 1将提供三级智能模式：High、Medium和Instant，与ChatGPT文本侧的推理层级设置对齐。这意味着用户可以根据场景在翻译精度和响应速度之间自由切换——在正式会议中选择High模式，在日常闲聊中选择Instant模式。

三、不确定性与风险

这并不是一篇"OpenAI又要碾压一切"的叙事。

Bidi 1目前仍处于"rumor + code sighting + first tests"阶段。模型最终名称在正式发布前可能变动——TestingCatalog也标注了"final naming of the model might change"。实时翻译的质量是否能达到"可商用"水平，仍需等到正式发布后的独立测试。

此外，双向实时翻译涉及的语言多样性和口音适配是长期挑战。70+输入语言的表现是否均衡？对低资源语言和方言的支持如何？这些都需要实测数据说话。

在商业模式上，Bidi 1的定价策略尚不明朗。ChatGPT的Advanced Voice Mode目前包含在Plus/Pro订阅中。如果Bidi 1的实时翻译功能需要更高的算力成本——GPT-Realtime-2的API定价约为32美元/百万输入Token和64美元/百万输出Token，三级智能模式的算力消耗差异巨大——OpenAI如何在消费者定价中平衡成本和可及性，将是一个关键考验。

还有一个更根本的问题：当实时翻译变成ChatGPT的默认能力而非付费卖点，竞争对手会以怎样的方式回应？如果Google在其20亿用户的谷歌翻译中直接嵌入Gemini驱动的实时双向翻译，如果DeepL推出更具竞争力的消费者端产品——这场语言墙的拆除将不是任何一家公司的独家叙事。

结论：当语言成为"选项"而非"障碍"

2024年GPT-4o的实时翻译演示让行业第一次看到了"语音AI翻译"的可能性。2025年6月AVM在ChatGPT中上线翻译功能。2026年5月GPT-Realtime-Translate API让开发者可以构建自己的翻译应用。而Bidi 1，可能让实时翻译从一个"开发者才能调用的API能力"，变成一个"每个ChatGPT用户口袋里都有"的日常工具。

这是典型的OpenAI路径：先做基础模型，再做开发者API，最后做消费者产品。每一步不仅扩大了市场，也在收集更多数据来迭代模型。

实时翻译的价值不在于"翻译"本身——翻译这件事人类已经做了一千年。它的价值在于：当翻译的延迟降到了人类感知不到的程度，当任何语言的人都可以在同一个对话空间里自然地交流，语言就从一个"障碍"变成了一个"选项"。

这就是Bidi 1要撬动的那个"huge pile of use cases"。

语言，从此不再是墙。