Gemini 3.1 Flash TTS:下一代富有表现力的AI语音模型

2026.04.16 04:43
2026年4月15日,谷歌推出Gemini 3.1 Flash TTS模型,提升AI语音可控性、表现力与质量,支持70+语言,引入音频标签实现细粒度控制,所有音频带SynthID水印防虚假信息,已在Google AI Studio、Vertex AI及Google Vids等平台上线。

2026年4月15日,谷歌推出Gemini 3.1 Flash TTS——其最新的文本转语音模型。这款模型在可控性、表现力和音质上均有显著提升,能帮助开发者、企业与用户打造下一代AI语音应用。即日起,该模型已在Gemini API、Google AI Studio(开发者预览版)、Vertex AI(企业预览版),以及面向Workspace用户的Google Vids平台同步上线。

在Artificial Analysis TTS排行榜中,Gemini 3.1 Flash TTS以1211 Elo分的成绩跻身“最具吸引力象限”。它支持多扬声器对话场景,覆盖70余种语言,还能通过自然语言指令实现细粒度的创意控制。新加入的音频标签功能,允许用户嵌入自然语言命令来调整语音的风格、节奏与表达效果。

开发者可在Google AI Studio中配置场景方向、扬声器特性,并无缝导出相关参数;早期测试者对模型的可控性和表现力给出了积极反馈。此外,所有生成的音频都带有SynthID水印,可有效检测AI生成内容,助力防范虚假信息传播。

作品声明:内容由AI生成