2026年5月8日消息,美国当地时间周四,OpenAI正式向开发者推出三款全新音频大模型,以增强语音智能体交互的自然度及实时任务执行能力。
这三款模型分别是GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper,目前均已在开发者测试平台上线。其中,GPT-Realtime-2专注于处理复杂任务,支持外部工具调用并保持语境连贯;GPT-Realtime-Translate可支持70余种源语言转换为13种目标语言;GPT-Realtime-Whisper则聚焦实时语音识别,能同步生成字幕并触发工作流更新。
Zillow、Priceline、德国电信等企业已开始对这些模型进行早期测试。定价上,GPT-Realtime-2的音频输入费用为每百万Token32美元起,GPT-Realtime-Translate每分钟0.034美元,GPT-Realtime-Whisper每分钟0.017美元。






快报