2026年4月15日,谷歌推出Gemini 3.1 Flash TTS——其最新的文本转语音模型。这款模型在可控性、表现力和音质上均有显著提升,能帮助开发者、企业与用户打造下一代AI语音应用。即日起,该模型已在Gemini API、Google AI Studio(开发者预览版)、Vertex AI(企业预览版),以及面向Workspace用户的Google Vids平台同步上线。
在Artificial Analysis TTS排行榜中,Gemini 3.1 Flash TTS以1211 Elo分的成绩跻身“最具吸引力象限”。它支持多扬声器对话场景,覆盖70余种语言,还能通过自然语言指令实现细粒度的创意控制。新加入的音频标签功能,允许用户嵌入自然语言命令来调整语音的风格、节奏与表达效果。
开发者可在Google AI Studio中配置场景方向、扬声器特性,并无缝导出相关参数;早期测试者对模型的可控性和表现力给出了积极反馈。此外,所有生成的音频都带有SynthID水印,可有效检测AI生成内容,助力防范虚假信息传播。






快报