当前位置：首页 > news >正文

Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

news 2026/7/2 10:31:35

Agent 时代已然来临——智能体们能看、能听、能行动，甚至能调用工具解决问题。但一个真正的智能伙伴，不该只有“执行力”，更应有“表达力”。今天，我们发布 Xiaomi MiMo-V2-TTS 语音合成大模型，专为 Agent 时代的全模态交互而生，让智能体不仅能理解世界，更能用有温度、有情感、有灵魂的声音与人对话。

引言

Xiaomi MiMo-V2-TTS 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构，经过上亿小时语音数据的大规模预训练与多维度强化学习，实现了高度可控的多粒度语音风格控制。MiMo-V2-TTS 支持从整体风格定调到局部情绪表达的精准调节，能在同一句话内完成语气转折和情感递变；真实还原人类说话的自然韵律；在唱歌时，也能准确表达音高和节奏，自然且富有表现力。

在训练过程中，MiMo-V2-TTS 首先通过超大规模语音-文本混合预训练，在海量数据中习得了强大的跨模态对齐与理解生成的统一能力；在此基础上，通过少量高质量监督数据的微调，模型获得了可泛化的多粒度与多风格指令控制能力。

为进一步激发模型在大规模预训练中积累的高表现力语音生成潜力，我们引入了多维度强化学习，兼顾了稳定性与表现力。具体而言，MiMo-V2-TTS 在强化学习阶段，围绕更自然的韵律、更稳定的音质、更准确的字词表达、更高质量的音色克隆以及不同场景下恰当的语气和表达方式等多个维度持续优化。得益于多层码本建模架构，模型在高保真的离散 token 空间中对语音进行建模，充分保留了原始语音中的丰富信息，使强化学习阶段能够直接利用语音相关奖励信号对模型进行优化，从而让多维奖励信号更有效地作用于生成过程。

模型概览

模型名称: MiMo-V2-TTS

音频 Tokenizer: 自研 MiMo Audio Tokenizer

核心技术:

自研多码本语音建模架构— 创新建模范式，实现更精细的语音特征捕捉与还原
超大规模预训练— 语音数据量突破上亿小时，覆盖丰富的说话风格与场景，赋予模型强大的泛化能力
多维度强化学习后训练— 系统性优化表现力与稳定性，让生成语音既生动又可靠

可泛化的语音风格指令控制

MiMo-V2-TTS 支持从整体到局部的多层次语音风格控制。用户可通过自然语言指令设定整体语音基调，同时对句内局部片段进行细粒度的情绪调节，实现同一语句中语气转折与情感递变的自然过渡——从全局定调到局部雕刻，一句话内见起伏。

Achoo! Ahem. I—I really [cough] think I am coming down with a terrible [cough] terrible cold.

这会……（打了个哈欠）呵啊——，这会到底还得开多久啊？啧，（压低声音）我都快听睡着了。那个，那个……咱们等会儿中午吃啥？

（紧张，深呼吸）呼……冷静，冷静。不就是一个面试吗……（语速加快，碎碎念）自我介绍已经背了五十遍了，应该没问题的。加油，你可以的……（小声）哎呀，领带歪没歪？

（大舌头，口齿不清）我没醉！谁说我醉了？再来……再来一杯！我跟你说，我、我心里苦啊……你懂什么呀你！

强大的文本理解能力

模型在预训练阶段通过大量文本-语音对齐数据，习得了书面语与口语表达之间的映射关系，能够智能识别文本中的各类格式信号——如标点符号、语气词、强调标记等——并将其自动转化为恰当、自然的语音表达，全程无需用户额外标注或手动干预。

Ugh... pffft... oh, pleeeease! You actually think I care? I am SO. TOTALLY. OVER. THIS. ENTIRE. THING.

Wait, w-what do you mean? The final exam is scheduled for TODAY?

You are UN-BE-LIEVABLE! I am sooooo done with your constant lies. GET. OUT!

超越语音：方言·角色·歌声

MiMo-V2-TTS 不止于标准语音生成，还具备丰富的多元表达能力：支持多种方言的自然发音，可进行角色扮演式的风格化演绎，更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

方言支持：东北话、四川话、河南话、粤语、台湾腔……

角色扮演

师父莫怕！俺老孙刚才翻到那山头看过了，前面树林子里透着股妖气。你们先在这石头上歇着，且容俺去打个头阵，探探什么来路！

示例歌曲

我怎么变这样，变得这样倔强？每一步的地方，每一站都不会忘。舞台上远远的光，落在我的肩膀，想起第一次那个模样。我怎么变这样，变得这样疯狂？用这灿烂时光，绽放不一样的光。就算黑夜太漫长，风景全被遮挡，抬头就有一片星光。

下一步

MiMo-V2-TTS 是我们语音技术路线图上的重要里程碑，但绝非终点。

在我们的规划中：中英文之外更多语种的覆盖；以及与 MiMo-V2-Omni 多模态理解能力的深度融合——让 Agent 不仅能看懂世界、理解世界，更能以富有表现力的人类声音去讲述这个世界。

语音 Agent 时代需要的，不只是听得清的声音，而是有生命力的声音。

我们正在打造它们。

END

http://www.jsqmd.com/news/514422/

相关文章：

单片机软件架构选型：前后台、时间片轮询与RTOS工程实践

从原理到实测：LMV358运算放大器的带宽与增益优化指南

Excel办公效率提升：手把手教你用网易有道API实现单元格翻译到备注（附避坑指南）

从布线到时钟：深入拆解SLR如何影响你的UltraScale+ FPGA时序收敛

英飞凌 TC3XX单片机HSM内核开发-UCB配置与HSMCOTP保护机制详解

深度学习模型压缩：轻量级图片旋转判断网络

PureRef 2.1.0 中文一键安装版详细教程设计师必备参考图管理神器

手把手教你用Dify把PDF/Word文档变成会聊天的AI助手（附分段清洗技巧）

Qwen3-4B-Thinking-GGUF惊艳效果：Chainlit中支持技术术语解释+代码示例+运行结果的三段式输出

Claude code + Obsidian 笔记组合工作流

openGauss轻量版3.1.0单机部署全流程：从虚拟机配置到远程连接Data Studio

Alpha Shape算法实战：用PCL库5分钟搞定点云边界提取（附完整代码）

网络分层概念

Qwen-VL图文推理效果展示：RTX4090D镜像对建筑图纸的结构识别与材料说明生成

IrisOLED：嵌入式机器人非阻塞OLED眼部动画库

Qt5实战：手把手教你用QPainter绘制一个工业级仪表盘（附完整源码）

CCPC哈尔滨站Problem L深度剖析：如何用树形DP解决路径统计问题？附数学期望推导

Qwen3.5-35B-A3B-AWQ-4bit效果深度展示：3D渲染图材质识别+光影分析报告

Pixel Dimension Fissioner保姆级教程：裂变结果人工审核工作流

OpenClaw云端沙盒体验：免安装试用GLM-4.7-Flash自动化

2026年Kimi降AI效果好不好？实测3款降AI工具后我选了这个

英飞凌TC3xx——GTM（通用定时器模块）——从架构到实战：解锁多通道并行控制的汽车应用

PaddleOCR与Python3.8.5在Windows环境下的快速安装与实战调试指南

FUTURE POLICE语音模型与ComfyUI工作流结合：可视化语音处理管线

Qwen3-32B-Chat入门必看：镜像中预置的benchmark脚本运行与性能基线对比

Qwen3-32B惊艳效果展示：中文长文本理解、多轮对话、代码生成真实截图集

RK3566平台Android 11系统编译实战指南

智慧水务平台如何助力县域供水系统升级——以山西某县为例

传输层协议TCP

达梦数据库连接故障排查指南：从基础到进阶的解决方案