当前位置: 首页 > news >正文

Google 推倒“巴别塔”:70+语言实时同传,边说边译,连语气都保留

不用等对方说完,手机贴耳就能听翻译
保留语调、节奏、音高——连“激动”都能翻出来


🧠 一、小白入门:Google 发布了一个什么样的“翻译神器”?

今天,Google 发布了一款全新的实时语音翻译模型:Gemini 3.5 Live Translate

它可以做到:

对方说一句,你几乎同步听到翻译
支持70多种语言,自动识别对方在说什么,不需要手动选
翻译出来的语音,保留说话人原本的语调、节奏和音高

一个具体的画面:

你在东京的居酒屋,店员用日语热情地推荐今天的特色菜。你把手机贴到耳朵上(像接电话那样),听筒里实时传出的中文翻译——语速跟着店员走,他激动的时候翻译也快,他停顿的时候翻译也自然地缓一拍

店员看到的只是你在“打电话”,整个过程自然、不尴尬。

💡一句解释:“同声传译”就是翻译和说话几乎同步进行,不等对方说完就开始翻。联合国的专业同传译员培养周期以年计算,收费极高。Google 把这个能力塞进了手机 App。


🔥 二、为什么我说它比 Claude Fable 5 更值得关注?

今天 AI 圈很多人都在讨论 Anthropic 发布的Claude Fable 5Claude Mythos 5——确实很强,但模型能力已经超出了普通人能用的范畴。

而 Google 这个模型不一样:

它直接推倒了“巴别塔”(《圣经》里人类因语言不通而无法沟通的象征)

你不用学新技能,不用买昂贵设备,打开手机上的 Google Translate App,就能让 70 多种语言之间的沟通变得几乎无感。


📦 三、核心能力:它到底做了什么?

1. 边听边译,不等说完

过去的翻译工具,不管是 Google Translate 的对话模式,还是各种会议翻译插件,基本都是“轮次制”的:

你说完一整句 → 系统停顿 → 处理 → 输出翻译

中间那段沉默,就是在等你说完。

3.5 Live Translate 改了这个逻辑:

在你说话的同时,模型内部就在做持续的权衡——
多等一会儿能拿到更多上下文、翻得更准,
但等太久就跟不上说话人了。

它在两者之间动态调节,全程只比说话人慢几秒

2. 保留说话人的语调、节奏和音高

这不是那种用固定机器人嗓音读翻译文本的模式。

模型会尝试保留:

  • 语调(intonation):你强调某个词,翻译里也会重读
  • 节奏(pacing):你说得快它翻得快,你放慢它也放慢
  • 音高(pitch):你激动时声音变高,翻译也跟着变高

💡一句解释:传统翻译是把文字“念出来”,声音是平的。这个模型是把“你怎么说的”也翻译过去了——连情绪一起传。

3. 自动检测语言,70+种自动识别

不需要提前告诉模型“我说的是中文,帮我翻成英文”。

你直接说,它自己判断你在说什么语言,自动翻成目标语言。

在多人多语言的场景下(比如一个会议里有人说日语、有人说法语、有人说中文),模型可以分别处理,不用每次手动切换。

4. 自动滤除噪音

在安静的办公室里做翻译不难,难的是在嘈杂的街头、拥挤的餐厅、或者机场候机厅。

模型会主动滤除背景噪声和音乐,只保留说话人的声音来生成翻译。


📱 四、怎么用?三条路径

路径一:普通用户 → Google Translate App(最简单)

在 Android 或 iOS 上打开 Google Translate,进入 Live Translate 功能。

  • 连接蓝牙或有线耳机:对方说话时,你通过耳机听到接近实时的翻译
  • Android 独占的“听筒模式”:不需要耳机。直接把手机像打电话一样贴到耳朵上,翻译后的音频通过手机听筒播放

一个具体用法:

你在巴塞罗那跟一个只说西班牙语的导游走街串巷,他在讲这栋楼的历史。你把手机贴到耳朵上,听筒里传出的中文翻译几乎和他的西班牙语同步。

适合两个场景:手边没耳机,或者不想让周围的人听到翻译内容。

路径二:企业用户 → Google Meet

Google Meet 的语音翻译功能升级为 3.5 Live Translate:

维度升级前升级后
支持语言数5种70多种
语言组合仅限和英语互译2000多种组合
操作方式需要提前配置即时访问

之前如果你的团队里有人说中文、有人说日语、有人说葡萄牙语,Meet 的翻译只能把英语翻成这几种语言——中文到日语、日语到葡萄牙语这种组合不支持。现在可以了

目前是私有预览阶段,本月先对部分企业客户开放,今年晚些时候更大范围推出。

路径三:开发者 → Gemini Live API

开发者可以通过 API 在自己的应用中集成实时翻译能力。

最小可用配置(Python):

config=types.LiveConnectConfig(response_modalities=["AUDIO"],translation_config=types.TranslationConfig(target_language_code="zh-Hans",# 目标语言:简体中文echo_target_language=True# 如果对方说的已经是中文,就原样回放))

两个核心参数:

  • target_language_code:你要翻成什么语言(zh-Hans=简体中文,ja=日语,en=英语)
  • echo_target_language:如果对方说的本来就是目标语言,设为true原样回放,设为false保持静默

已集成的开发平台:

Agora、Fishjam、LiveKit、Pipecat 等已经做好了和这个 API 的集成——开发者不需要自己处理音频流的工程问题。

一个真实案例:

东南亚打车平台Grab正在测试这个模型,用于司机和乘客在接驾时的多语言通话。Grab 每月有超过1000万通语音电话通过平台拨出。

一个泰国司机和一个日本游客之间的电话,双方各说各的语言,模型在中间做实时双向翻译。


🌐 五、支持的语言

70多种语言,覆盖全球主要语种。

语言代码语言代码
中文(简体)zh-Hans英语en
中文(繁体)zh-Hant日语ja
西班牙语es韩语ko
法语fr德语de
俄语ru阿拉伯语ar
葡萄牙语(巴西)pt-BR印地语hi
泰语th越南语vi
印尼语id土耳其语tr

(完整 70+ 语言见官方文档)

💡BCP-47 代码:这是国际通用的语言编码标准。比如zh-Hans表示“简体中文”,zh-Hant表示“繁体中文”,en-US表示“美式英语”。


🔒 六、安全标记:防止 AI 语音被滥用

所有 3.5 Live Translate 生成的音频都用SynthID做了水印标记。

  • 这个水印人耳听不出来
  • 但可以被技术手段检测到
  • 目的是标记哪些语音是 AI 生成的,防止有人拿翻译后的语音去冒充真人

💡SynthID:Google DeepMind 开发的 AI 内容水印技术,类似纸币上的防伪标记,肉眼看不见但机器能验。


💡 七、几个能立刻想到的使用场景

场景具体画面用哪个产品
海外旅行在巴黎问路、在东京点菜、在伊斯坦布尔砍价,手机贴耳朵实时听翻译Google Translate App
跨国团队会议中美日三地同事开周会,各说各的语言,每个人听到自己语言的翻译Google Meet
国际客服客服团队处理多语言来电,不需要按语种分组Gemini Live API
出海直播中文主播面向多语言观众,实时生成多语种配音Gemini Live API
跨国打车/外卖司机和乘客语言不通时的通话翻译Gemini Live API(如 Grab)
课堂/培训留学生用耳机听母语翻译的课堂讲授Google Meet 或 API

⚠️ 八、它还不能做什么?

Google 自己也承认了当前限制:

  • 语音复制的准确性会“飘”(有些词翻得不够准)
  • 相似语言会混淆(比如西班牙语和葡萄牙语靠太近时)
  • 多人快速对话时,声音可能会“卡”

但对于旅行问路、跨国开会、打车点菜这些日常场景,“够用”的门槛已经跨过去了

传统同声传译员培训周期以年计算,全球能做好的人极少,收费极高。
3.5 Live Translate 当然还做不到专业同传的水平,
但它把“边听边译”从一个稀缺的专业技能,变成了手机上随时可用的功能。


✅ 总结

层次核心内容
小白理解Google 做了一个能边说边译的翻译模型,70+语言,还保留语气
怎么用① Google Translate App(手机贴耳)② Google Meet(企业会议)③ API(开发者集成)
核心能力自动检测语言、保留语调节奏、滤除噪音、SynthID 水印防滥用

Gemini 3.5 Live Translate—— 不是更聪明的助手,是更平等的沟通。

Google 推倒了巴别塔。剩下的,是你愿不愿意拿起手机。

http://www.jsqmd.com/news/1001207/

相关文章:

  • PVZ Toolkit深度解析:植物大战僵尸内存修改器的专业实现方案
  • 【篮球英语】09 防守技术:从盯人到协防
  • 吾爱出品,功能超全300+,拥有海量资源~
  • 2026湘潭瓷砖空鼓维修哪家好?地砖墙砖翘起起拱专业修复推荐 - 苏易修缮
  • 聚英物联网云平台:毫秒级传感器联动,极速响应工况调控需求
  • 追求体面高薪,醒悟踏实养家胜过面子
  • 大理石光泽度下降怎么办?家庭DIY抛光指南(2026版) - 宁波融诚石业
  • 2026免费短视频文案提取在线工具推荐!手把手教你一键提取文案
  • MuleSoft如何实现企业级LLM编排与治理
  • 从“刷”到“场”:论无刷直流电机的技术本质、参数体系与控制范式演变
  • 11个先进RAG策略组合,让你的系统准确率飙升94%!收藏必备
  • 2026性价比高的软体油囊厂家推荐:软体油囊/车载油囊优质供应商推荐 - 资讯快报
  • VGA 音乐游戏 FPGA 设计 Verilog Vivado
  • 企业网管实战:用MAC-VLAN给会议室加把‘锁’,防止外来电脑蹭网(华为交换机配置)
  • 寄存器组 register_bank FPGA 设计 VHDL Vivado
  • 潮玩入驻高速服务区,乐驿便利店零售焕发新活力
  • 用扣子工作流10分钟出30条小红书笔记,批量内容生产的完整SOP
  • 文字提取神器!免费开源离线OCR工具!图片、PDF一键提取复制文字,支持批量识别!还能生成和解析二维码
  • 2026杭州考研机构拟人测评|像挑室友一样选机构!暑期集训/公共课/专业课真实扒皮 - 品牌鉴赏师
  • C# WinForms视频监控小工具:RTSP/RTMP流拉取、ROI框选、画面翻转与截图
  • 月薪4.2万?大模型架构师高薪背后,普通程序员转行必备3个信号!建议收藏!
  • 5分钟快速上手:AutoRaise让macOS窗口管理效率翻倍的终极指南
  • 【广州楼市研判系列57】2026置换认知重构|破除换房误区:置换从不只是搬家扩容,本质是家庭房产迭代升级 - 资讯快报
  • 2026年盐城汽车大灯升级改装地址电话盐城车视觉改灯 - Ayu8888
  • 2026文字识别提取工具保姆级教程!免费付费工具手把手教你用
  • 17-Codex 高级工作流:Subagent、Worktree、多模型路由
  • 通达信缠论插件:从手工分析到智能交易的5步蜕变指南
  • 从DSP56652看异构SoC设计:双核协同、低功耗与系统集成实战
  • 低成本LIN从节点设计:HC908系列MCU选型与实战指南
  • 2026年 印刷包装厂家推荐榜单:纸箱、彩盒、手提袋与精装盒源头工厂实力解析 - 品牌发掘