当前位置：首页 > news >正文

Google 推倒“巴别塔”：70+语言实时同传，边说边译，连语气都保留

news 2026/6/12 21:43:43

不用等对方说完，手机贴耳就能听翻译
保留语调、节奏、音高——连“激动”都能翻出来

🧠 一、小白入门：Google 发布了一个什么样的“翻译神器”？

今天，Google 发布了一款全新的实时语音翻译模型：Gemini 3.5 Live Translate。

它可以做到：

对方说一句，你几乎同步听到翻译
支持70多种语言，自动识别对方在说什么，不需要手动选
翻译出来的语音，保留说话人原本的语调、节奏和音高

一个具体的画面：

你在东京的居酒屋，店员用日语热情地推荐今天的特色菜。你把手机贴到耳朵上（像接电话那样），听筒里实时传出的中文翻译——语速跟着店员走，他激动的时候翻译也快，他停顿的时候翻译也自然地缓一拍。

店员看到的只是你在“打电话”，整个过程自然、不尴尬。

💡一句解释：“同声传译”就是翻译和说话几乎同步进行，不等对方说完就开始翻。联合国的专业同传译员培养周期以年计算，收费极高。Google 把这个能力塞进了手机 App。

🔥 二、为什么我说它比 Claude Fable 5 更值得关注？

今天 AI 圈很多人都在讨论 Anthropic 发布的Claude Fable 5和Claude Mythos 5——确实很强，但模型能力已经超出了普通人能用的范畴。

而 Google 这个模型不一样：

它直接推倒了“巴别塔”（《圣经》里人类因语言不通而无法沟通的象征）

你不用学新技能，不用买昂贵设备，打开手机上的 Google Translate App，就能让 70 多种语言之间的沟通变得几乎无感。

📦 三、核心能力：它到底做了什么？

1. 边听边译，不等说完

过去的翻译工具，不管是 Google Translate 的对话模式，还是各种会议翻译插件，基本都是“轮次制”的：

你说完一整句 → 系统停顿 → 处理 → 输出翻译

中间那段沉默，就是在等你说完。

3.5 Live Translate 改了这个逻辑：

在你说话的同时，模型内部就在做持续的权衡——
多等一会儿能拿到更多上下文、翻得更准，
但等太久就跟不上说话人了。

它在两者之间动态调节，全程只比说话人慢几秒。

2. 保留说话人的语调、节奏和音高

这不是那种用固定机器人嗓音读翻译文本的模式。

模型会尝试保留：

语调（intonation）：你强调某个词，翻译里也会重读
节奏（pacing）：你说得快它翻得快，你放慢它也放慢
音高（pitch）：你激动时声音变高，翻译也跟着变高

💡一句解释：传统翻译是把文字“念出来”，声音是平的。这个模型是把“你怎么说的”也翻译过去了——连情绪一起传。

3. 自动检测语言，70+种自动识别

不需要提前告诉模型“我说的是中文，帮我翻成英文”。

你直接说，它自己判断你在说什么语言，自动翻成目标语言。

在多人多语言的场景下（比如一个会议里有人说日语、有人说法语、有人说中文），模型可以分别处理，不用每次手动切换。

4. 自动滤除噪音

在安静的办公室里做翻译不难，难的是在嘈杂的街头、拥挤的餐厅、或者机场候机厅。

模型会主动滤除背景噪声和音乐，只保留说话人的声音来生成翻译。

📱 四、怎么用？三条路径

路径一：普通用户 → Google Translate App（最简单）

在 Android 或 iOS 上打开 Google Translate，进入 Live Translate 功能。

连接蓝牙或有线耳机：对方说话时，你通过耳机听到接近实时的翻译
Android 独占的“听筒模式”：不需要耳机。直接把手机像打电话一样贴到耳朵上，翻译后的音频通过手机听筒播放

一个具体用法：

你在巴塞罗那跟一个只说西班牙语的导游走街串巷，他在讲这栋楼的历史。你把手机贴到耳朵上，听筒里传出的中文翻译几乎和他的西班牙语同步。

适合两个场景：手边没耳机，或者不想让周围的人听到翻译内容。

路径二：企业用户 → Google Meet

Google Meet 的语音翻译功能升级为 3.5 Live Translate：

维度	升级前	升级后
支持语言数	5种	70多种
语言组合	仅限和英语互译	2000多种组合
操作方式	需要提前配置	即时访问

之前如果你的团队里有人说中文、有人说日语、有人说葡萄牙语，Meet 的翻译只能把英语翻成这几种语言——中文到日语、日语到葡萄牙语这种组合不支持。现在可以了。

目前是私有预览阶段，本月先对部分企业客户开放，今年晚些时候更大范围推出。

路径三：开发者 → Gemini Live API

开发者可以通过 API 在自己的应用中集成实时翻译能力。

最小可用配置（Python）：

config=types.LiveConnectConfig(response_modalities=["AUDIO"],translation_config=types.TranslationConfig(target_language_code="zh-Hans",# 目标语言：简体中文echo_target_language=True# 如果对方说的已经是中文，就原样回放))

两个核心参数：

target_language_code：你要翻成什么语言（zh-Hans=简体中文，ja=日语，en=英语）
echo_target_language：如果对方说的本来就是目标语言，设为true原样回放，设为false保持静默

已集成的开发平台：

Agora、Fishjam、LiveKit、Pipecat 等已经做好了和这个 API 的集成——开发者不需要自己处理音频流的工程问题。

一个真实案例：

东南亚打车平台Grab正在测试这个模型，用于司机和乘客在接驾时的多语言通话。Grab 每月有超过1000万通语音电话通过平台拨出。

一个泰国司机和一个日本游客之间的电话，双方各说各的语言，模型在中间做实时双向翻译。

🌐 五、支持的语言

70多种语言，覆盖全球主要语种。

语言	代码	语言	代码
中文（简体）	zh-Hans	英语	en
中文（繁体）	zh-Hant	日语	ja
西班牙语	es	韩语	ko
法语	fr	德语	de
俄语	ru	阿拉伯语	ar
葡萄牙语（巴西）	pt-BR	印地语	hi
泰语	th	越南语	vi
印尼语	id	土耳其语	tr

（完整 70+ 语言见官方文档）

💡BCP-47 代码：这是国际通用的语言编码标准。比如zh-Hans表示“简体中文”，zh-Hant表示“繁体中文”，en-US表示“美式英语”。

🔒 六、安全标记：防止 AI 语音被滥用

所有 3.5 Live Translate 生成的音频都用SynthID做了水印标记。

这个水印人耳听不出来
但可以被技术手段检测到
目的是标记哪些语音是 AI 生成的，防止有人拿翻译后的语音去冒充真人

💡SynthID：Google DeepMind 开发的 AI 内容水印技术，类似纸币上的防伪标记，肉眼看不见但机器能验。

💡 七、几个能立刻想到的使用场景

场景	具体画面	用哪个产品
海外旅行	在巴黎问路、在东京点菜、在伊斯坦布尔砍价，手机贴耳朵实时听翻译	Google Translate App
跨国团队会议	中美日三地同事开周会，各说各的语言，每个人听到自己语言的翻译	Google Meet
国际客服	客服团队处理多语言来电，不需要按语种分组	Gemini Live API
出海直播	中文主播面向多语言观众，实时生成多语种配音	Gemini Live API
跨国打车/外卖	司机和乘客语言不通时的通话翻译	Gemini Live API（如 Grab）
课堂/培训	留学生用耳机听母语翻译的课堂讲授	Google Meet 或 API

⚠️ 八、它还不能做什么？

Google 自己也承认了当前限制：

语音复制的准确性会“飘”（有些词翻得不够准）
相似语言会混淆（比如西班牙语和葡萄牙语靠太近时）
多人快速对话时，声音可能会“卡”

但对于旅行问路、跨国开会、打车点菜这些日常场景，“够用”的门槛已经跨过去了。

传统同声传译员培训周期以年计算，全球能做好的人极少，收费极高。
3.5 Live Translate 当然还做不到专业同传的水平，
但它把“边听边译”从一个稀缺的专业技能，变成了手机上随时可用的功能。

✅ 总结

层次	核心内容
小白理解	Google 做了一个能边说边译的翻译模型，70+语言，还保留语气
怎么用	① Google Translate App（手机贴耳）② Google Meet（企业会议）③ API（开发者集成）
核心能力	自动检测语言、保留语调节奏、滤除噪音、SynthID 水印防滥用

Gemini 3.5 Live Translate—— 不是更聪明的助手，是更平等的沟通。

Google 推倒了巴别塔。剩下的，是你愿不愿意拿起手机。

查看全文

http://www.jsqmd.com/news/1001207/