当前位置：首页 > news >正文

全球实时多模态语音翻译与同传系统技术评估及市场展望报告

news 2026/6/5 21:05:55

全球实时多模态语音翻译与同传系统技术评估及市场展望报告

引言：同声传译的技术范式革命

在全球化协作日益紧密的商业与技术生态中，跨语言实时沟通的效率已成为决定企业国际化竞争力的关键要素。传统的同声传译系统长期依赖“级联架构”（Cascaded Architecture），即通过自动语音识别、机器翻译和文本转语音三个独立的模型进行串联处理。然而，这种级联范式在实际应用中暴露出难以克服的固有缺陷：各模块间的交接会累积物理延迟，通常导致端到端延迟高达五秒以上；同时，声学信号在转化为文本中介的过程中会丢失原说话人的语气、情感和声学特征；更严重的是，前级识别的微小误差会在后续模块中成倍放大，导致灾难性的翻译漂移。
进入2025至2026年，以阿里巴巴 Qwen 团队、OpenAI、DeepL、腾讯以及字节跳动为代表的行业前沿力量，密集推出了新一代基于原生多模态大模型的实时语音传译解决方案。这些系统直接在单一神经网络中实现“声音/图像输入”到“声音/文本输出”的端到端映射，彻底打破了级联架构的物理瓶颈。本报告将以阿里巴巴最新发布的 qwen3.5-livetranslate-flash-realtime 模型为核心，系统性地剖析其技术架构、客户端实践，并横向对比全球主流竞品，为专业技术决策人员提供详尽的技术评估与选型参考。

Qwen3.5-LiveTranslate 技术深度解构

阿里巴巴 Qwen 团队于2026年5月19日正式推出 qwen3.5-livetranslate-flash-realtime 原生多模态同传模型，该模型是对前代 Qwen3 模型的重大升级。其核心定位是提供低延迟、具备视觉增强能力和实时声音复刻的高保真同声传译服务。

思考者-表达者双引擎架构与可读单元技术

Qwen3.5-LiveTranslate 放弃了传统的管道堆叠，构建在 Qwen3.5-Omni 统一模型的“Thinker-Talker（思考者-表达者）”系统架构之上。其中，Thinker 引擎负责接收交错输入的流式视频和音频，通过深层语义对齐直接输出翻译文本；Talker 引擎则在无需传统独立 TTS 模块介入的情况下，直接融合翻译文本和源音频的声学特征，从而输出兼具源语音语调、情感和节奏的目标语音。
为了解决不同语系之间（例如英语和汉语、日语和汉语）天然存在的语序颠倒问题，模型引入了创新的“可读单元技术”（Readable Unit Technology）。该技术采用分块流式输入机制，在连续的语音流中动态寻找最佳的“语义提交点”。模型无需等待发言者说出完整句子，而是利用“可读单元”标记来动态控制合成粒度，在保证翻译语义连贯性的前提下，将平均语音到语音的延迟缩短至 2.8 秒。

视觉增强的跨模态消除歧义机制

在物理噪音干扰严重或多人口语交流的复杂环境下，单一的音频输入往往面临严重的声音信号退化。Qwen3.5-LiveTranslate 将视觉特征（Vision）作为第一类输入，通过并行分析实时视频流中的画面内容，实现双重校准。模型能够提取发言者的唇部运动、面部表情、肢体手势，并实时解析屏幕中显示的 PPT 演示文稿或招牌文本。当遇到同音异义词或物理噪声导致音频缺失时，视觉上下文会作为强约束条件注入 Thinker 引擎，从而显著消除语义歧义，提高特定环境下的翻译准确性。

语种覆盖与输出模态的跃升

Qwen3.5-LiveTranslate-Flash-Realtime 支持多达 60 种语言的互译，较前代 Qwen3 模型支持的 18 种语言实现了三倍以上的语种扩张。在输出模态上，系统进行了精细化区分：

音频加文本双模态输出（29 种语言）：支持包括中文（zh）、英语（en）、阿拉伯语（ar）、德语（de）、法语（fr）、西班牙语（es）、葡萄牙语（pt）、韩语（ko）、俄语（ru）、泰语（th）、越南语（vi）、日语（ja）等在内的全球核心主流语言。
仅文本输出（31 种语言）：支持粤语（yue）、希腊语（el）、南非荷语（af）、白俄罗斯语（be）、克罗地亚语（hr）、乌克兰语（uk）等较为垂直或资源有限的语言。

声音复刻与运行时专业控制

该模型原生集成了实时声音复刻能力，确保翻译后的语音能够最大程度保留原发言者的特征声纹、语气和情绪起伏。通过 API 中的 session.update 配置，声音复刻支持三种典型机制：

预复刻音色（never）：直接加载用户在百炼控制台预先录制并生成的个性化音色 ID，适用于固定发言人场景；
单次复刻模式（once）：系统在会话初始阶段捕捉并分析第一句语音，在整个会话期间维持该复刻音色，适用于单人连续演讲；
每次复刻模式（always）：在每次模型响应前重新提取当前输入音频的声学特征并进行快速复刻，完美适应多角色、频繁轮流发言的交互场景。

此外，为了应对高度专业化的垂直领域（如医疗、法律和金融会议），Qwen3.5 允许开发者在会话配置中传入自定义热词字典（session.translation.corpus.phrases）。该功能可动态拦截并修正特定品牌名称、医药代号和法律条文的翻译路径，有效规避了通用大模型在垂直术语上的幻觉风险。

协议规程与会话生命周期

Qwen3.5-LiveTranslate-Flash-Realtime 依赖状态化 WebSocket（WSS）协议进行低延迟的双向数据交换。其完整的交互生命周期包含以下关键阶段：

连接建立：客户端向 DashScope 的 wss 端点发起握手。中国大陆区与国际区（新加坡）采用不同的域名和业务空间 ID 鉴权。
会话配置：建立连接后，客户端必须首先发送 session.update 事件，以配置源语种、目标语种、输出模态（[“text”] 或 [“text”, “audio”]）、声音复刻参数和热词词典。
原文转写配置（可选）：若需要同步获取源语言的语音识别文本，可通过设置 session.input_audio_transcription.model 为 “qwen3-asr-flash-realtime”。服务端将在翻译的同时，通过专用事件流式返回识别到的源语言原文。
数据馈送：客户端通过 input_audio_buffer.append 事件流式推送 Base64 编码的音频帧（16kHz, 16-bit PCM Mono）；若启用视觉辅助，则通过 input_image_buffer.append 异步推送图片数据。
模型响应：服务端 VAD 自动检测到静音或发言结束（Turn detection）后触发模型推理，并根据配置的模态返回响应。仅文本模式下返回 response.text.done ；文本加语音模式下流式推送 response.audio.delta 音频包，并在结束时发送 response.audio_transcript.done。
会话终止：音频传输结束后，客户端必须显式发送 session.finish 事件通知服务端，待服务端返回 session.finished 后方能关闭连接。若直接断开连接，会导致最后一帧音频无法完成识别与翻译。

客户端产品实践：以开源 my-translator 架构演进为例

在客户端集成原生多模态同传大模型的实践中，由独立开发者开发的开源桌面同传字幕工具 my-translator（基于 Tauri 跨平台 Rust/JS 框架）提供了一个极具参考价值的演进范例。该工具最近从早期的 Qwen3-Omni Plus 引擎全面迁移至 qwen3-livetranslate-flash-realtime，展现了端到端流式模型对客户端架构的颠覆性重构。

代码重构与服务端 VAD 的去复杂度效应

在旧版本中，由于底层模型不具备完善的实时交互管理能力，客户端必须承担繁重的声学信号预处理工作。为了控制音频切片和发言状态检测，客户端不得不使用基于能量均方根（RMS-based Client VAD）的算法，在前端维护复杂的 commit_turn、rms_int16 等状态机逻辑。这不仅导致客户端 CPU 资源消耗过高，而且由于本地设备硬件差异，经常产生误切片或断句漏翻译的问题。
在迁移至 Qwen3.5-LiveTranslate-Flash-Realtime 之后，由于模型原生支持服务端 VAD 和自动会话管理，客户端代码得到了极大的精简：

Rust 后端重构：src-tauri/src/commands/qwen_realtime.rs 文件中的 Rust 后端代码从 486 行大幅缩减至 264 行，所有本地 RMS-VAD 计算和切片提交状态机全部被剥离。
JS 客户端简化：负责建立连接和处理流的 src/js/qwen-realtime-client.js 从 148 行重写缩减至 90 行，移除了本地输出队列管理和源 provisional 状态回调。
流式缓冲机制的改变：由于 Qwen LiveTranslate Flash 在每个心跳（Tick）推送的是“当前翻译片段加上已累积暂存区”的完整快照（Snapshot）而非增量（Delta），前端在接收到 provisional 状态数据时，无需进行本地字符串追加拼接，而是直接进行全量快照赋值替换，极大地降低了前端文本渲染的逻辑复杂度。

交互界面与双向翻译闭环设计

my-translator 的界面设计深度契合了同传字幕场景，其功能结构与交互细节极具行业代表性：

单面板与双面板视图：提供 Single（仅显示翻译文本）和 Dual（源语言原文与翻译文本左右独立滚动、智能贴底锁屏）两种布局，用户可根据演讲或会议场景自由切换。
双向翻译防回授机制（Two-Way Translation）：在双人双语会议场景下，系统支持配置“双向翻译模式（Language A↔ \leftrightarrow↔Language B）。系统会将音频源设置为“系统音频加麦克风（System + Mic），从而能够同时捕获本地发言和会议软件中远端参会者的声音。为了避免产生“TTS 翻译音→ \rightarrow→麦克风重新采集→ \rightarrow→二次循环翻译”的音频回授和噪声环路（Feedback loop），系统在检测到开启双向翻译模式时，会自动强制关闭本地 TTS 播报。在单向同传模式下，若使用的是 Windows 系统且需要捕获扬声器声音，系统则会提示用户佩戴耳机以隔离扬声器对麦克风的声学物理回授。
源语种配置机制：由于 Qwen 引擎在流式实时处理中，如果将源语种设置为“Auto”自动检测，容易导致持续的输入挂起（Stall）。因此，在 qwen-langs.js 配置文件中硬编码集成了 60 种语言的选择列表，且显式剔除了“Auto-detect”选项，强制用户在发起会话前明确指定源语言。

行业核心类似产品深度横向评估

除阿里巴巴 Qwen 团队外，2026年的实时语音翻译市场中还活跃着 OpenAI、DeepL、腾讯、字节跳动等强力玩家，各方在技术架构和目标市场上呈现出差异化的生态定位。

OpenAI GPT Realtime Translate

OpenAI 于2026年5月初在其 API 平台正式推出 gpt-realtime-translate 低延迟流式翻译模型。

译员专属优化与决策延迟：该模型与通用的 GPT Voice/Omni 语音对话模型有着本质的技术区别。它使用了数万小时专业口译员、同传译员的真实口译音频和双语对齐文本进行专门微调。这使得模型具备了人类译员的“职业素养”：它在会话中始终保持在“纯翻译”模式下，绝对不会像普通 AI 助手那样去回答用户提出的问题或执行指令，而只会忠实地翻译听到的每一句话。同时，该模型被训练为能够像人类同传一样，在累积到足够的句子语义成分之前保持静默，以此来保证翻译长句（特别是主谓语倒置句）时的语义完整性。
动态声音特征自适应：模型能够实时提取输入音频中的情绪、基频和声强，在流式输出 translated audio 过程中动态自适应，使译音自然贴合原作者的发言风格。
架构局限性：该模型仅支持 13 种固定的目标输出语言。更为关键的是，单次 WebSocket 连接只返回目标翻译文本和翻译音频，不提供源语言的 ASR 转写结果。若开发者需要显示“原文-译文双语字幕”，必须平行调用另一个 gpt-realtime-whisper 模型并额外付费。

DeepL Voice-to-Voice

翻译巨头 DeepL 于2026年4月16日推出了专门针对实时口语交流的 DeepL Voice-to-Voice 实时语音传译产品矩阵，其核心包含了面向线上视频会议的 Voice for Meetings 以及针对移动端面谈的 Voice for Conversations。

抑振渲染与术语一致性：DeepL 指出，在流式同传字幕中，高频的“文本重写、闪烁撤回和振荡（Caption Oscillation）”会严重干扰用户的阅读理解。DeepL Voice 依托其专有的语言模型技术，在模型内部实现了对句意推断的强置信度评估，使最终输出的字幕展现出极高的平稳度，大幅减少了闪烁重写。此外，系统完美接入了 DeepL 的术语库机制（Glossaries & Spoken Terms V2），能有效保障企业专有名词和技术术语的一致性。
合规与盲测首选：DeepL 重点锁定了对安全合规和翻译专业度要求极高的大型跨国企业、呼叫中心（BPO）。DeepL 拥有 ISO 27001 和 SOC 2 Type 2 认证，并承诺绝对不使用任何用户语音数据来训练其基础大模型。在由第三方机构 Slator 独立进行的盲测评估中，96% 的专业语言学家在流利度和上下文准确性上，将 DeepL Voice 评为优于谷歌、微软以及 Zoom 的原生翻译方案。

腾讯 Covo-Audio

腾讯 AI 实验室于2026年3月开源了 7B 参数规模的端到端原生大语音模型 Covo-Audio。该模型摒弃了传统 ASR-LLM-TTS 级联管线，采用统一端到端前向传播生成高保真音频。

分级三模态交错技术（Hierarchical Tri-modal Interleaving）：在预训练阶段，Covo-Audio 在词组、短语和句子多重粒度上对连续声学特征、离散语音 Token 和自然文本进行深度交错对齐，不仅保留了极其细腻的语气起伏，也使得 7B 级别的模型具备了不亚于 32B 模型的语义推理能力。
全双工机制控制 Token：为了支持极为自然的“听答同步”与“实时打断”，模型设计了三个专用的架构控制标记：
1. THINK：指示模型当前处于单向聆听状态；
2. SHIFT：指示话权发生转换，模型开始流式输出音频；
3. BREAK：打断检测。当用户在模型播报过程中强行发言（Barge-in）时，声学编码器迅速识别该打断信号，注入 BREAK 标记，促使模型瞬间中断当前输出并转为接收模式。
早期响应缺陷：在 GaokaoEval 测试集中，Covo-Audio 被暴露出在全双工环境下存在“早期响应”问题，即当发言者在句子中间进行较长呼吸停顿时，系统容易发生误判并提前开始插话翻译。

字节跳动 Seed LiveInterpret 2.0

字节跳动 Seed 团队于2025年7月24日发布了 Seed LiveInterpret 2.0 全双工端到端语音到语音同传模型，主打中英双向高精度、超低延迟同声传译。

评测表现与零样本克隆：该模型在中英互译 S2T 任务中的人工评测准确度评分高达 74.8（满分 100，相较行业第二名高出 58%），S2S 综合评测达到 66.3 分，首字输出平均延迟仅为 2.21 秒，语音到语音端到端延迟仅为 2.53 秒，表现极其逼近人类专业同传译员。此外，模型在零样本声音复刻、多人口语重叠交错、非流利语音（如口吃、赘余词过滤）等极端场景下表现出极高的技术鲁棒性。

核心指标与商业化特征多维比对

在商业化落地和开发选型中，各平台的收费标准、技术指标和开放性存在显著差异。下表对2026年主流的实时语音传译系统进行了多维度对比：

产品名称	研发主体	开放形式 / API	核心架构特色	语言覆盖范围	端到端延迟表现	声音克隆与控制	商业计费标准与综合估算
Qwen3.5-LiveTranslate-Flash-Realtime	阿里巴巴	云端 API (WSS) + 客户端集成	基于 Qwen3.5-Omni 的 Thinker-Talker 架构，结合“可读单元技术”与“视觉辅助解构”	60 种语言互译；29 种支持语音+文本双输出，31 种仅支持文本输出	~2.8 秒	支持三种声音克隆模式；支持最大 1,000 个动态热词配置	微粒化 Token 计费：音频输入：7 Token/秒音频输出：12.5 Token/秒图像输入：0.5 Token/（32*32 px）（注：百炼新用户赠送 70M 体验 Token）
OpenAI GPT Realtime Translate	OpenAI	云端 API (WebRTC/WSS)	专职口译数据微调；流式双向连续音频管线	74 种源输入语言（基于 Whisper）；种固定目标输出语言	~2.0 - 2.5 秒 (200 ms PCM 块推送)	动态声线自适应控制；通过运行参数支持 Hotwords 控制	时长平铺计费：实时翻译：$0.034/分钟（约 $2.04/小时）若需源语言转写（搭配 Realtime Whisper）：额外 $0.017/分钟（约 $1.02/小时）两项并联总成本约$3.06/小时
DeepL Voice (Voice-to-Voice)	DeepL	云端 API + Teams/Zoom 插件	专有翻译 LLM；Spoken Terms 字幕抗振荡算法	支持 40+ 种全球语言（含 24 种欧盟官方语言，及越、泰、阿、孟加拉语等）	~3.0 秒	支持（处于 Closed Beta 阶段）；Spoken Terms V2 术语校正	企业级许可证年度订阅：会议版许可（Meetings）：$15,000/12个月面谈版许可（Conversations）：$10,000/12个月（注：基础文本 API 套餐不包含此功能）
Covo-Audio	腾讯	开源 (CC BY 4.0 协议)	Whisper-large-v3 + Qwen2 骨干网络；THINK/SHIFT/BREAK 全双工控制	多国语言	~2.0 - 2.5 秒	智脑-声线解耦技术（极低 TTS 样本要求定制声音）	开源免费：需企业自行负担计算算力和服务器运维成本
Seed LiveInterpret 2.0	字节跳动	企业定制方案	端到端双向全双工流式对齐，具备口吃鲁棒性过滤	深度聚焦中英互译	语音到文本：2.21 秒语音到语音：2.53 秒	零样本实时音色复刻	商务定制计费：通常作为火山引擎大客户级解决方案销售，无公开 API 阶梯报价
Soniox Translation	Soniox	云端 API	统一模型原生整合 ASR, MT, 与 TTS 编解码	60+ 种源语言；60+ 种目标语言	< 2.0 秒	原生双向、支持多说话人分离与 Diarization	Token 弹性计费：语音转写翻译（STT）：约$0.18/小时语音到语音同传（S2S）：约$0.82/小时（相比 OpenAI 展现出极高价格优势）

行业面临的技术挑战与未来演进方向

即便端到端原生大模型带来了同声传译延迟与保真度的飞跃，但在具体业务落地和客户端开发中，行业仍面临以下核心技术挑战：

1. 物理声学反馈与双向混音回授

如 my-translator 在 Windows/Tauri 客户端开发中所遇到的实际困境：在不强制佩戴耳机的情况下，一旦系统输出翻译语音，本地麦克风极易将音响播放出来的翻译 TTS 音频重新捕获并作为“新的源语言输入”再次送入 API 管线进行翻译。这种“声音循环回授”不仅会引发刺耳的啸叫，更会导致系统陷入“自己翻译自己”的死循环。目前行业普遍采用物理隔离（戴耳机）或在双向翻译中强制静音 TTS 的硬性逻辑解决，未来急需引入高精度的端侧主动声学回声消除（AEC）和基于说话人特征的分离算法。

2. ASR 在长静音区段的挂起与断流

在长时间静音或掌声、笑声、视频背景乐等非人类语音区段（Non-speech activity），流式同传的 ASR 模块经常发生转写停顿。Qwen3.5-LiveTranslate 在实践中被发现，如果源音频流中混入了长时间的非语言掌声，其 ASR 转写显示列往往会发生停顿（Stall），尽管此时翻译通道仍在工作。在连续同传场景下，如何保持时钟同步和非语流对齐是目前大模型在长连接维护上面临的细节难题。

3. 语义打断（Barge-in）与早期响应的冲突

以腾讯 Covo-Audio 为代表的全双工模型虽然引入了 BREAK 打断标记，以实现拟人化的双语自由交谈，但在现实中，“打断”与“呼吸停顿”存在天然的识别边界冲突。当演讲人进行正常的语义换气或由于紧张而出现断句时，系统极易误判为“本轮发言结束（Turn complete）”，从而引发抢说、抢译（早期响应问题），强行打断原发言者的发言。这要求模型不仅要进行声学 VAD 评判，更要实时对输入句子进行在线未完结语义树（Syntax parse tree）的推断，以识别发言者是否真的说完了整句话。

4. 术语纠偏与热词冲突

随着各家厂商均支持最大 1,000 个热词对或 Glossaries 的注入，如何在运行时实现热词与通用大模型词表的软对齐成为了新的难点。简单的硬性字符替换容易导致句子语法解体、主谓不一致等问题；而将热词作为前置词嵌入（Embedding prompt）注入模型，又极易在多轮会话中发生漂移。DeepL 的“Spoken Terms V2”和 Qwen 的 Key-Value 动态 Phrase 对齐展示了未来的演进路径：通过特定的限制性波束搜索（Constrained Beam Search）算法，在生成目标 Token 的概率分布时，硬性提高注册热词的概率权重，从而兼顾语法正确度与词汇的一致性。

结论与企业技术选型建议

2026年是同声传译技术完成根本性换代的分水岭，端到端原生多模态语音大模型已经成熟并实现商业落地。对于寻求引入实时翻译服务的企业和开发者，本报告给出以下具体的选型与部署建议：

开发者、小微出海企业与多媒体平台：建议优先选择Qwen3.5-LiveTranslate-Flash-Realtime 方案。该方案具有最广阔的 60 种语言互译能力，且支持直接在流连接中同步获取源语言识别结果（ASR）与翻译结果，极大方便了双语字幕应用的开发。其微粒化的按秒 Token 计费模式也非常利于起步阶段的精细成本管控。在视频直播或在线课堂场景中，还可以灵活开启其视觉辅助功能，通过捕获 PPT 内容和讲师手势大幅提升翻译准确度。
高合规性、注重专业体验的大型跨国集团与远程高管会议：应当首选DeepL Voice-to-Voice（Meetings / Conversations）方案。其业界顶尖的 Spoken Terms 字幕防振荡平稳度能够最大化降低参会高管的阅读疲劳；其极佳的 ISO 27001 / GDPR 安全合规资质能完全打消合规部门对公司会议机密外泄的顾虑。
专业出海客服中心（BPO）与定制级声源交互应用：如果服务语言主要集中在欧美语系和主流中日韩语种，且极度看重声音的“人类同传质感”及动态情绪对齐，OpenAI GPT Realtime Translate是绝佳的选型方向。由于其专门使用了专业口译音频进行强化微调，其纯翻译特性的可靠性极高。对于极其注重运营成本的企业，也可以评估并选用Soniox Translation的按 Token 结算方案，其语音同传价格（~$0.82/小时）相较 OpenAI（~$3.06/小时）在长连接高频通话场景下能够节省大量账单支出。
自研智能硬件、智能座舱或私有云环境下的自主可控场景：建议基于开源的Tencent Covo-Audio-Chat-FD7B 模型进行二次开发与微调。Covo-Audio 的 THINK/SHIFT/BREAK 全双工打断逻辑和智脑-声线解耦定制技术，能帮助硬件厂商以极低的定制化训练门槛，在完全离线的环境下交付极具拟人化体验的端侧流式语音翻译硬件。

引用的著作

Qwen3.5-LiveTranslate: From Sound to Sight, From Word to Right, 访问时间为六月 5, 2026， https://qwen.ai/blog?id=qwen3.5-livetranslate
DeepL unveils real-time spoken translation, breaking the next language barrier with Voice-to-Voice, 访问时间为六月 5, 2026， https://www.deepl.com/en/press-release/deepl-unveils-real-time-spoken-translation-breaking-the-next-language-barrier-with-voice-to-voice
效率高又经济实惠的AI 翻译解决方案 - Lionbridge, 访问时间为六月 5, 2026， https://www.lionbridge.com/zh-hans/blog/translation-localization/translate-more-better-cheaper-with-our-ai-solutions-rmx-3/
Tencent Releases Covo-Audio Open-Source 7B Speech AI Model - WinBuzzer, 访问时间为六月 5, 2026， https://winbuzzer.com/2026/03/26/tencent-open-sources-covo-audio-7b-speech-language-model-xcxwbn/
Tencent AI Open Sources Covo-Audio: A 7B Speech Language Model and Inference Pipeline for Real-Time Audio Conversations and Reasoning - MarkTechPost, 访问时间为六月 5, 2026， https://www.marktechpost.com/2026/03/26/tencent-ai-open-sources-covo-audio-a-7b-speech-language-model-and-inference-pipeline-for-real-time-audio-conversations-and-reasoning/
Alibaba Qwen Team Introduces Qwen3.5-LiveTranslate-Flash: Real-Time Multimodal Interpretation Across 60 Languages at 2.8-Second Latency - MarkTechPost, 访问时间为六月 5, 2026， https://www.marktechpost.com/2026/05/20/alibaba-qwen-team-introduces-qwen3-5-livetranslate-flash-real-time-multimodal-interpretation-across-60-languages-at-2-8-second-latency/
Alibaba Qwen Team Introduces Qwen3.5-LiveTranslate-Flash: Real-Time Multimodal Interpretation Across 60 Languages at 2.8-Second Latency : r/machinelearningnews - Reddit, 访问时间为六月 5, 2026， https://www.reddit.com/r/machinelearningnews/comments/1tifbpg/alibaba_qwen_team_introduces/
Real-time, voice-to-voice translation is here, and it’s ready to transform global business, 访问时间为六月 5, 2026， https://www.deepl.com/en/blog/voice-to-voice-translation-is-here
Alibaba Updates Speech Translation Model, Triples Language Coverage - Slator, 访问时间为六月 5, 2026， https://slator.com/alibaba-speech-translation-model-triples-language-coverage/
Build Live Translation Apps with gpt-realtime-translate - OpenAI Developers, 访问时间为六月 5, 2026， https://developers.openai.com/cookbook/examples/voice_solutions/realtime_translation_guide
Seed LiveInterpret 2.0 Seed LiveInterpret 2.0 可在多 … - 字节跳动Seed, 访问时间为六月 5, 2026， https://seed.bytedance.com/zh/seed_liveinterpret
Alibaba Cloud Model Studio:Real-time audio and video translation - Qwen, 访问时间为六月 5, 2026， https://www.alibabacloud.com/help/en/model-studio/qwen3-5-livetranslate-flash-realtime
Releases · phuc-nt/my-translator - GitHub, 访问时间为六月 5, 2026， https://github.com/phuc-nt/my-translator/releases
Qwen3.7-Plus: Multimodal Agent Intelligence, 访问时间为六月 5, 2026， https://qwen.ai/research
实时语音/音视频翻译-千问 - 阿里云文档, 访问时间为六月 5, 2026， https://help.aliyun.com/zh/model-studio/qwen3-5-livetranslate-flash-realtime
phuc-nt/my-translator: Real-time speech translation — macOS & Windows, free TTS, no server, your API keys only - GitHub, 访问时间为六月 5, 2026， https://github.com/phuc-nt/my-translator
gpt-realtime-translate - AI Model Catalog | Microsoft Foundry Models, 访问时间为六月 5, 2026， https://ai.azure.com/catalog/models/gpt-realtime-translate
Is OpenAI’s New Real-Time Interpreter a Big Deal? - Slator, 访问时间为六月 5, 2026， https://slator.com/openai-new-real-time-interpreter/
Gemini Live Translation: Google’s Real-Time AI That Speaks 70+ Languages - Reddit, 访问时间为六月 5, 2026， https://www.reddit.com/r/AISEOInsider/comments/1qszty0/gemini_live_translation_googles_realtime_ai_that/
Soniox vs OpenAI: real-time speech translation compared, 访问时间为六月 5, 2026， https://soniox.com/compare-translation
gpt-realtime-translate (2026-05-06, GA) deploys successfully but inference always fails with OperationNotSupported - Microsoft Learn, 访问时间为六月 5, 2026， https://learn.microsoft.com/en-us/answers/questions/5912093/gpt-realtime-translate-(2026-05-06-ga)-deploys-suc
DeepL Voice: instant, secure voice translation for global teams, 访问时间为六月 5, 2026， https://www.deepl.com/en/products/voice
Translate Speech in Realtime - DeepL Documentation, 访问时间为六月 5, 2026， https://developers.deepl.com/api-reference/voice
How real-time translation powers borderless, fast-moving contact center teams - DeepL, 访问时间为六月 5, 2026， https://www.deepl.com/en/blog/borderless-contact-center
(PDF) Covo-Audio Technical Report - ResearchGate, 访问时间为六月 5, 2026， https://www.researchgate.net/publication/400661981_Covo-Audio_Technical_Report
字节跳动Seed团队发布端到端同声传译模型 - 证券时报, 访问时间为六月 5, 2026， https://www.stcn.com/article/detail/2733213.html
GPT Realtime Translate overview - Microsoft Foundry, 访问时间为六月 5, 2026， https://learn.microsoft.com/en-us/azure/foundry/openai/concepts/gpt-realtime-translate
A New Chapter for Realtime AI: Reasoning, Translation, and Real-Time Transcription, 访问时间为六月 5, 2026， https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/a-new-chapter-for-realtime-ai-reasoning-translation-and-real-time-transcription/4517124
DeepL Voice - AWS Marketplace, 访问时间为六月 5, 2026， https://aws.amazon.com/marketplace/pp/prodview-zfiljqn4qrmns