Google 发布 Gemini 3.5 Live Translate:即时语音到语音翻译,保留语调情感
发布时间:2026年06月10日 11:00:00Google 发布 Gemini 3.5 Live Translate,实现真正意义上的即时语音到语音翻译。该功能不仅翻译文字,还保留原始说话者的语调、情感和语速,支持 60+ 语言,基于 Gemini 3.5 Flash 的多模态能力,将率先在 Google Translate、Google Meet 和 Gemini Live API 上可用。
6月10日,Google 正式发布 Gemini 3.5 Live Translate,这是 AI 在消除语言障碍方面迄今为止最实质性的进步之一。该功能实现真正意义上的即时语音到语音翻译,不仅转换语言内容,还保留原始说话者的语调、情感和语速。
技术能力
Live Translate 基于 Gemini 3.5 Flash 的多模态能力,实现了三大技术突破:
- 近乎同步的实时翻译:说话者话音刚落,翻译语音即可输出,延迟控制在秒级
- 情感保留:不仅能翻译文字内容,还能还原原始语调、情感色彩和语速节奏
- 语音克隆保真:目标语言的发音音色与源语言说话者保持一致
支持平台
- Google Translate(Android/iOS):消费者可直接使用
- Google Meet:企业版支持实时会议翻译
- Gemini Live API:开发者可集成到自有应用
- Google AI Studio:提供公共预览访问
支持语言
首批支持超过 60 种语言,覆盖全球主要语种。Google 表示将后续逐步增加更多语言,特别是小语种和区域方言的覆盖。
开发生态
Google 同时面向开发者开放了丰富的集成路径,支持通过 Gemini Live API 与 LiveKit、Pipecat、Agora、Fishjam、Vision Agents 等实时媒体框架集成,让开发者可以构建多语言语音翻译应用到会议、教育、广播、客服、出行等场景。
行业意义
Live Translate 的发布标志着 AI 语音翻译从"可用"迈入"自然"阶段。此前语音翻译产品往往存在延迟高、语调机械、无法保留情感色彩等问题,限制了其在商务谈判、情感交流等场景的应用。Gemini 3.5 Live Translate 解决了这些痛点,可能对全球商务、旅游和国际协作产生深远影响。Google 还提到该功能集成了 SynthID 音频水印技术,为 AI 生成语音提供可追溯的真实性验证。