谷歌Gemini3.5 Live Translate上线：70+语言实时互译，保留原音韵律延迟仅数秒

2026.06.09 23:48

6月9日谷歌发布Gemini3.5 Live Translate实时语音互译模型，支持70余种语言，采用流式处理实现数秒延迟下的连续输出，保留说话者语调、语速与音高。开发者即日起可试用API，企业用户本月可在Google Meet体验，普通用户将通过移动端翻译应用使用，安卓端新增聆听模式。

跨语言沟通时，传统实时翻译系统往往因延迟高、对话易中断或丢失说话者的情感特征，影响沟通效率与体验。6月9日晚，谷歌正式推出Gemini3.5 Live Translate实时语音互译模型，正是为了解决这些长期困扰行业的问题。

这款模型支持70多种语言的识别与自然语音翻译，核心优势在于采用流式处理技术——不同于传统轮流翻译需要等完整语音输入的方式，它能把语音信号分割成短片段，边接收边处理，仅需数秒延迟就能实现连续流畅的输出。同时，模型还能精准还原原说话者的语调、语速和音高，通过对语音韵律信息的建模，让翻译结果更贴近原表达的情感与风格，避免机械生硬的效果。

技术层面，Gemini3.5基础模型的多模态能力为实时翻译提供了坚实支撑，它融合了语音识别、自然语言处理与语音合成技术，在流式架构下实现了低延迟与高准确性的平衡。开发者从即日起可通过Gemini Live API及Google AI Studio试用公开预览版，为各类应用集成实时翻译功能提供接口；企业用户本月起能在Google Meet中体验私有预览版，帮助跨国团队提升会议沟通效率；普通用户则可通过Android和iOS版谷歌翻译应用使用该功能，其中Android端新增“聆听模式”，支持贴耳收听翻译音频，优化了私密场景下的使用体验。

近期行业动态表明，AI翻译领域正加速向实时化、自然化方向发展，用户对翻译的情感还原和低延迟需求也在持续增长，Gemini3.5 Live Translate的发布正是这一趋势的典型体现。在竞争对手方面，OpenAI的Whisper模型虽然支持实时语音转文字翻译，但在保留说话者语调上还有提升空间；微软Translator的实时翻译功能已应用于Teams会议，但支持的语言数量比Gemini3.5 Live Translate的70多种要少。谷歌此次发布的模型在语言覆盖和情感保留方面有着明显优势，这或许能进一步巩固其在AI翻译领域的领先地位。

作品声明：内容由AI生成