跨语言沟通时,传统实时翻译系统往往因延迟高、对话易中断或丢失说话者的情感特征,影响沟通效率与体验。6月9日晚,谷歌正式推出Gemini3.5 Live Translate实时语音互译模型,正是为了解决这些长期困扰行业的问题。
这款模型支持70多种语言的识别与自然语音翻译,核心优势在于采用流式处理技术——不同于传统轮流翻译需要等完整语音输入的方式,它能把语音信号分割成短片段,边接收边处理,仅需数秒延迟就能实现连续流畅的输出。同时,模型还能精准还原原说话者的语调、语速和音高,通过对语音韵律信息的建模,让翻译结果更贴近原表达的情感与风格,避免机械生硬的效果。
技术层面,Gemini3.5基础模型的多模态能力为实时翻译提供了坚实支撑,它融合了语音识别、自然语言处理与语音合成技术,在流式架构下实现了低延迟与高准确性的平衡。开发者从即日起可通过Gemini Live API及Google AI Studio试用公开预览版,为各类应用集成实时翻译功能提供接口;企业用户本月起能在Google Meet中体验私有预览版,帮助跨国团队提升会议沟通效率;普通用户则可通过Android和iOS版谷歌翻译应用使用该功能,其中Android端新增“聆听模式”,支持贴耳收听翻译音频,优化了私密场景下的使用体验。
近期行业动态表明,AI翻译领域正加速向实时化、自然化方向发展,用户对翻译的情感还原和低延迟需求也在持续增长,Gemini3.5 Live Translate的发布正是这一趋势的典型体现。在竞争对手方面,OpenAI的Whisper模型虽然支持实时语音转文字翻译,但在保留说话者语调上还有提升空间;微软Translator的实时翻译功能已应用于Teams会议,但支持的语言数量比Gemini3.5 Live Translate的70多种要少。谷歌此次发布的模型在语言覆盖和情感保留方面有着明显优势,这或许能进一步巩固其在AI翻译领域的领先地位。






快报