大模型动态

Google 发布 Gemini 3.5 Live Translate：即时语音到语音翻译，保留语调情感

发布时间：2026年06月10日 11:00:00

Google 发布 Gemini 3.5 Live Translate，实现真正意义上的即时语音到语音翻译。该功能不仅翻译文字，还保留原始说话者的语调、情感和语速，支持 60+ 语言，基于 Gemini 3.5 Flash 的多模态能力，将率先在 Google Translate、Google Meet 和 Gemini Live API 上可用。

6月10日，Google 正式发布 Gemini 3.5 Live Translate，这是 AI 在消除语言障碍方面迄今为止最实质性的进步之一。该功能实现真正意义上的即时语音到语音翻译，不仅转换语言内容，还保留原始说话者的语调、情感和语速。

技术能力

Live Translate 基于 Gemini 3.5 Flash 的多模态能力，实现了三大技术突破：

近乎同步的实时翻译：说话者话音刚落，翻译语音即可输出，延迟控制在秒级
情感保留：不仅能翻译文字内容，还能还原原始语调、情感色彩和语速节奏
语音克隆保真：目标语言的发音音色与源语言说话者保持一致

支持平台

Google Translate（Android/iOS）：消费者可直接使用
Google Meet：企业版支持实时会议翻译
Gemini Live API：开发者可集成到自有应用
Google AI Studio：提供公共预览访问

支持语言

首批支持超过 60 种语言，覆盖全球主要语种。Google 表示将后续逐步增加更多语言，特别是小语种和区域方言的覆盖。

开发生态

Google 同时面向开发者开放了丰富的集成路径，支持通过 Gemini Live API 与 LiveKit、Pipecat、Agora、Fishjam、Vision Agents 等实时媒体框架集成，让开发者可以构建多语言语音翻译应用到会议、教育、广播、客服、出行等场景。

行业意义

Live Translate 的发布标志着 AI 语音翻译从"可用"迈入"自然"阶段。此前语音翻译产品往往存在延迟高、语调机械、无法保留情感色彩等问题，限制了其在商务谈判、情感交流等场景的应用。Gemini 3.5 Live Translate 解决了这些痛点，可能对全球商务、旅游和国际协作产生深远影响。Google 还提到该功能集成了 SynthID 音频水印技术，为 AI 生成语音提供可追溯的真实性验证。

返回列表