OpenAI WebRTC音频会话工具升级:新增文档上下文功能,支持GPT-Realtime-2模型

2026.06.13 09:19
2026年6月12日,Link Blog消息称,OpenAI WebRTC音频会话工具更新,新增文档上下文功能并支持GPT-Realtime-2模型。该工具初版于2024年12月构建,此次升级引入上月发布的GPT-Realtime-2(GPT-5级推理能力,知识截止2024年9月),用户可粘贴文档进行音频对话。

2026年6月12日,Link Blog报道了OpenAI WebRTC音频会话工具的更新。这款工具的首个版本由我在2024年12月开发,初衷是测试OpenAI当时刚推出的WebRTC API,以便与实时音频模型进行交互。

上月,OpenAI通过该API推出了GPT-Realtime-2模型,称其为“首个具备GPT-5级推理能力的语音模型”,知识截止日期为2024年9月30日。我本期待这款模型能在ChatGPT iPhone应用中上线,但一直没等到,于是决定优化之前的工具。

现在,用户不仅能选择GPT-Realtime-2模型,还可以粘贴大段文档作为上下文,直接在浏览器里围绕这些信息展开音频对话。

从界面截图来看,工具标题为“OpenAI WebRTC Audio Session”,包含API令牌输入框、语音选择(当前选中的是Coral)、模型选择(当前为gpt-realtime-2),以及可选的文档上下文区域——示例内容是DuckDB与SQLite在安全运行不可信SQL方面的对比。界面下方有“开始会话”按钮,底部的“最近transcript”面板则显示了部分对话记录。

作品声明:内容由AI生成