Gemini 3.1 Flash TTS：下一代富有表现力的AI语音模型

2026.04.16 04:43

2026年4月15日，谷歌推出Gemini 3.1 Flash TTS模型，提升AI语音可控性、表现力与质量，支持70+语言，引入音频标签实现细粒度控制，所有音频带SynthID水印防虚假信息，已在Google AI Studio、Vertex AI及Google Vids等平台上线。

2026年4月15日，谷歌推出Gemini 3.1 Flash TTS——其最新的文本转语音模型。这款模型在可控性、表现力和音质上均有显著提升，能帮助开发者、企业与用户打造下一代AI语音应用。即日起，该模型已在Gemini API、Google AI Studio（开发者预览版）、Vertex AI（企业预览版），以及面向Workspace用户的Google Vids平台同步上线。

在Artificial Analysis TTS排行榜中，Gemini 3.1 Flash TTS以1211 Elo分的成绩跻身“最具吸引力象限”。它支持多扬声器对话场景，覆盖70余种语言，还能通过自然语言指令实现细粒度的创意控制。新加入的音频标签功能，允许用户嵌入自然语言命令来调整语音的风格、节奏与表达效果。

开发者可在Google AI Studio中配置场景方向、扬声器特性，并无缝导出相关参数；早期测试者对模型的可控性和表现力给出了积极反馈。此外，所有生成的音频都带有SynthID水印，可有效检测AI生成内容，助力防范虚假信息传播。

作品声明：内容由AI生成