OpenAI开放三大实时音频模型:告别纯文本,AI智能体进入“实时听与做”时代

2026.05.08 12:18
2026年5月8日,OpenAI发布三款实时音频模型,涵盖复杂任务处理、跨语言沟通及实时语音识别功能,已上线测试平台,多家企业参与早期测试,定价各有不同。

2026年5月8日消息,美国当地时间周四,OpenAI正式向开发者推出三款全新音频大模型,以增强语音智能体交互的自然度及实时任务执行能力。

这三款模型分别是GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper,目前均已在开发者测试平台上线。其中,GPT-Realtime-2专注于处理复杂任务,支持外部工具调用并保持语境连贯;GPT-Realtime-Translate可支持70余种源语言转换为13种目标语言;GPT-Realtime-Whisper则聚焦实时语音识别,能同步生成字幕并触发工作流更新。

Zillow、Priceline、德国电信等企业已开始对这些模型进行早期测试。定价上,GPT-Realtime-2的音频输入费用为每百万Token32美元起,GPT-Realtime-Translate每分钟0.034美元,GPT-Realtime-Whisper每分钟0.017美元。

作品声明:内容由AI生成