谷歌Gemini3.5 Live Translate上线:70+语言实时互译,保留原音韵律延迟仅数秒

2026.06.09 23:48
6月9日谷歌发布Gemini3.5 Live Translate实时语音互译模型,支持70余种语言,采用流式处理实现数秒延迟下的连续输出,保留说话者语调、语速与音高。开发者即日起可试用API,企业用户本月可在Google Meet体验,普通用户将通过移动端翻译应用使用,安卓端新增聆听模式。

跨语言沟通时,传统实时翻译系统往往因延迟高、对话易中断或丢失说话者的情感特征,影响沟通效率与体验。6月9日晚,谷歌正式推出Gemini3.5 Live Translate实时语音互译模型,正是为了解决这些长期困扰行业的问题。

这款模型支持70多种语言的识别与自然语音翻译,核心优势在于采用流式处理技术——不同于传统轮流翻译需要等完整语音输入的方式,它能把语音信号分割成短片段,边接收边处理,仅需数秒延迟就能实现连续流畅的输出。同时,模型还能精准还原原说话者的语调、语速和音高,通过对语音韵律信息的建模,让翻译结果更贴近原表达的情感与风格,避免机械生硬的效果。

技术层面,Gemini3.5基础模型的多模态能力为实时翻译提供了坚实支撑,它融合了语音识别、自然语言处理与语音合成技术,在流式架构下实现了低延迟与高准确性的平衡。开发者从即日起可通过Gemini Live API及Google AI Studio试用公开预览版,为各类应用集成实时翻译功能提供接口;企业用户本月起能在Google Meet中体验私有预览版,帮助跨国团队提升会议沟通效率;普通用户则可通过Android和iOS版谷歌翻译应用使用该功能,其中Android端新增“聆听模式”,支持贴耳收听翻译音频,优化了私密场景下的使用体验。

近期行业动态表明,AI翻译领域正加速向实时化、自然化方向发展,用户对翻译的情感还原和低延迟需求也在持续增长,Gemini3.5 Live Translate的发布正是这一趋势的典型体现。在竞争对手方面,OpenAI的Whisper模型虽然支持实时语音转文字翻译,但在保留说话者语调上还有提升空间;微软Translator的实时翻译功能已应用于Teams会议,但支持的语言数量比Gemini3.5 Live Translate的70多种要少。谷歌此次发布的模型在语言覆盖和情感保留方面有着明显优势,这或许能进一步巩固其在AI翻译领域的领先地位。

作品声明:内容由AI生成

快报

更多

15:10

中国已建成五基空天地一体生态监测网络

15:09

水利部:今年汛期多款堤防安全技术装备将投入使用

15:08

A股收评:沪指跌0.42%报3993点,煤炭开采加工、元件板块跌幅居前

15:03

欧洲主要股指开盘涨跌不一

15:03

国内商品期货多数收跌,沪银、铂跌超4%

15:02

工信部:提升网络对人工智能业务服务能力,优化家庭/商企无线局域网(WLAN)网络接入时延不大于5ms

15:01

工信部:加强移动通信空口智能化、天基计算网络、智能体互联网等一批关键核心技术攻关

15:00

工信部:围绕原材料、电子信息、装备制造等行业“智改数转网联”需求,建设新型工业网络

14:58

工信部:加强高端光电芯片和器件研发,开展光电混合组网技术试验

14:57

在津布局锂精矿已陆续批量启运?中矿资源、盛新锂能等回应

14:56

工信部:建立完善国家和区域算力平台,强化算力统筹监测和供需对接

14:55

工信部:提升光纤接入网上行带宽配置,推进支持大上行能力的5G-A网络部署

14:53

工信部:加快建设400Gbps/800Gbps等骨干传输网络,优化东中西部国家枢纽节点之间网络传输通道

14:52

工信部:增强网络边缘推理能力,降低推理时延和终端算力需求

14:50

工信部:到2028年,城域算力1毫秒时延圈覆盖率不低于75%

14:49

光伏概念局部异动,爱旭股份涨停

14:46

港股部分新消费股逆势上涨,奈雪的茶涨超8%

14:46

中国研究提出基于微气泡强化淬冷的不溶性硫磺制备技术,萃取后的产品IS含量高达97.33%

14:39

微信官宣朋友圈搜索功能

14:36

美能源信息局下调今年美石油库存预期