当前位置: 首页 > news >正文

腾讯混元,终于回到了牌桌上

2026 年 4 月,国内大模型市场像赶集一样热闹。智谱 AI 在 8 号发了 GLM-5.1,说自己能连续干 8 个小时的活;月之暗面在 20 号推出了 Kimi K2.6,可以调度 300 个智能体一起做事;DeepSeek 在 24 号放出了 V4 系列,把 API 价格打到几乎不要钱。腾讯混元正好卡在中间,23 号发了 Hy3 preview。

如果单看各项指标的排名,Hy3 这次并没有遥遥领先。它的参数是 295B,上下文 256K,主打一个“快慢思考融合”——听起来玄乎,说白了就是让模型在处理简单问题时快速响应,遇到复杂问题就慢下来仔细推演,像人一样切换思考节奏。更重要的是,它的代码能力终于补上了:SWE-Bench 从上一代的 53%涨到了 74.4%——上一代的代码能力基本没法用,这一代至少能干活了。

但如果把目光拉长一点看,Hy3 的意义可能不在于某个指标冲到了第一,而在于它证明了一件事:腾讯的大模型,终于不再是那个“你们聊我先走了”的角色了。


从 2021 到 2023:关门憋了两年多

腾讯做混元这件事,其实起步不算晚。2021 年内部就立项了,但那时大模型还不是风口,外界几乎没人知道。2022 年 4 月,他们第一次对外提“混元 AI 大模型”,也没引起多大动静。真正让圈内人注意到的是 2022 年底:混元搞出了一个万亿参数的 NLP 模型,号称是国内第一个低成本、可落地的,还登顶了 CLUE 榜单。那时候行业还在比拼参数规模,腾讯能低成本跑起来,说明工程师确实动了脑子。

但有个问题一直没解决:有模型,没产品。普通用户用不上,开发者也只能看着新闻知道有这么个东西。直到 2023 年 9 月,腾讯全球数字生态大会上,混元大模型才算正式亮相,通过腾讯云对外开放。紧接着内部成立了“混元助手”项目组,开始做对话式产品。这个时间点,比百度和阿里晚了将近半年——文心一言 3 月就上了,通义千问 4 月也出来了。腾讯跑得慢,是事实。


2024 到 2025:换挡提速

进入 2024 年,混元明显开始加速。1 月份全面切换到 MoE 架构——混合专家模型,这个技术切换很关键,如果不换,后面拼参数规模成本根本扛不住。5 月份,腾讯元宝 App 上线,C 端用户总算能亲自上手玩了。9 月份混元 Turbo 出来,推理速度提上去了,成本降下来了。11 月份,腾讯干了一件不太像它风格的事——把 MoE 模型“混元 Large”和一个 3D 生成模型给开源了。腾讯在开源上一向偏保守,这次愿意拿出来,说明内部对技术路线的自信度在涨。

到这一步,混元已经解决了“能用”的问题,但离“好用”还有距离。

2025 年是混元产品化最密集的一年。年初的 TurboS 用上了 Mamba-MoE 混合架构,5 月份那一波更新几乎把所有能做的模态都刷了一遍:TurboS 和 T1 迭代了,视觉推理模型出来了,端到端语音通话上线了,图像生成和 3D 生成也升级了。12 月底,混元 2.0 发布,MoE 架构下参数达到 406B,总算站上了规模的第一梯队。这一年,混元搭好了产品框架:混元大模型做技术底座,元宝 App 做 C 端入口,QClaw 做一个能操控电脑的本地智能体。

但是,框架归框架,能不能打还得看真本事。


Hy3 preview:补上了最关键的短板

2026 年 4 月 23 日发布的 Hy3 preview,最实在的变化就是代码能力的大幅提升。SWE-Bench 从 53%涨到了 74.4%,这意味着它从一个“写代码基本靠蒙”的模型,变成了一个“确实能帮你写点东西”的模型。快慢思考融合这个技术方向,也体现了一种思路上的转变:不再单纯追求“快”或者“大”,而是让模型自己去判断什么时候该快、什么时候该慢。

不过说实话,跟同期其他模型比,Hy3 并没有碾压谁。在 SWE-Bench Verified 和 Terminal-Bench 2.0 这两个更难的测试里,它的成绩低于智谱 GLM-5 和 Claude-Opus-4.6。在 SuperCLUE 那个综合评测里,DeepSeek V4-Pro 以 70.98 分排第一,混元没进前三。

那 Hy3 到底强在哪?便宜。腾讯把推理成本压得很低,定价在同尺寸模型里几乎最低。这个思路跟 DeepSeek 有点像——不争绝对第一,但给你一个够用又不心疼的方案。而且,Hy3 的发布还有一个微妙的背景:在这之前,腾讯元宝 App 就已经接入了 DeepSeek 的模型。当时很多人说“腾讯自研不行,得用别人的”。Hy3 出来后,局面就不一样了——腾讯手里有了自己的备选方案,用 DeepSeek 是因为它性价比确实好,但真到关键时刻,自己的模型也能顶上。


其他几家在干什么?

要看清混元的位置,得看看 DeepSeek、智谱和 Kimi 各自在走什么路。

DeepSeek 的路线最清晰,也最极端:极致性价比加上极致坦诚。V4-Pro 的总参数是 1.6 万亿,激活 490 亿,配上 1M 上下文,结果 API 价格低到百万 token 只要两分五厘钱。技术报告直接写“我们落后 GPT-5.4 大约三到六个月”——这种话大部分公司不敢说,说了就等于承认自己不是第一。但 DeepSeek 这么说,反而让人觉得它可信。当然,DeepSeek 也有自己的问题:到 4 月 20 日,它已经 140 天没发新模型了,在主流厂商里发布频率最低,核心成员魏浩然年初也离开了。

智谱 GLM 走的是另一条路:让 AI 干长活。GLM-5.1 能连续执行 8 小时的任务,从零构建一个 Linux 桌面系统,或者通过 655 轮迭代把一个数据库的查询吞吐量提升近 7 倍。它解决的不再是“回答一个问题”,而是“完成一个项目”。这条路子的商业逻辑也很清楚:既然我能在复杂场景里干活,那我就值这个价——GLM-5.1 在核心场景提价 10%,成了第一个在代码场景对标 Claude Opus 4.6 定价的国产厂商。

Kimi 的路子又不一样:用组团的方式解决问题。K2.6 可以同时调度 300 个子 Agent 并行协作,完成长达 4000 步的复杂任务。你让它读一批行业报告,它能自动生成多个前端设计方案,然后让不同的 Agent 分别评审、修改、打包交付——原来几周的事,压缩到几小时。有意思的是,K2.6 发布的同时 API 价格涨了 58%,从每百万 token 0.60 美元涨到 0.95 美元。这说明月之暗面想把重点放到高价值企业客户上,为预计 2026 年下半年的 IPO 铺路。


混元的位置:全能的追赶者

把这四家放在一起看,路线分化已经非常明显了。DeepSeek 做普惠,让每个开发者都用得起;智谱做深潜,让 AI 完成长周期复杂任务;Kimi 做集群,用规模化协作解决复杂问题;腾讯混元呢?

混元目前更像一个全能的追赶者——文本、图像、视频、3D、语音,什么都有,但什么都做不到第一。不过它有一个别人没有的优势:腾讯生态。微信、企业微信、腾讯云、腾讯文档,混元可以部署到这些动辄数亿用户的产品里。这个分发能力,DeepSeek、智谱、Kimi 都没有。

问题在于,生态优势还没有转化为产品优势。元宝 App 的用户量跟豆包、Kimi 比还有差距,QClaw 那个本地智能体也还在早期。Hy3 这一代最大的价值,可能不是某个指标冲到第一,而是向外界证明了一件事:腾讯自己能做出同级别“能用且便宜”的模型,不再需要被人质疑“为什么要自研”。


接下来往哪走?

姚顺雨在 2025 年底加入腾讯,出任首席 AI 科学家。他的背景是清华“姚班”毕业、普林斯顿博士,之前在 OpenAI 做研究员,参与过智能体产品的研发。他主导了底层架构的重构和 Hy3 的技术路线,快慢思考融合这个方向,更像是朝着模拟人类认知迈进了一步,而不是单纯堆参数。

但技术方向定了,产品怎么落地?腾讯最擅长的从来不是第一个做出来,而是把别人做出来的东西集成到自己的生态里,让几亿人在不知不觉中用上。微信支付不是第一个移动支付,腾讯云也不是第一个云服务。混元大概率也会走这条路——不追求在榜单上吊打所有人,而是让混元的能力渗透到腾讯的每一个产品里。你在企业微信里@一个机器人就能自动生成周报,在腾讯文档里打一行字就能配图,在 QQ 群里问个问题模型就帮你搜好答案。这些场景如果跑通了,比单纯刷榜更有价值。

当然,前提是混元得足够稳、足够便宜、足够好用。Hy3 已经把“好用”和“便宜”的问题解决了大半,“稳”还需要时间验证。国内这几家大模型公司,路线已经分化得很清楚了——DeepSeek 做普惠,智谱做深潜,Kimi 做集群,腾讯做生态。没有哪条路是绝对正确的,关键看谁能跑得久、跑得透。

混元起步慢了,但好在现在还在牌桌上。牌局还远没结束。

http://www.jsqmd.com/news/732070/

相关文章:

  • 终极指南:如何用EdgeDeflector彻底摆脱Windows的浏览器强制跳转
  • 5个维度重构音乐可视化:Arcade-plus如何重新定义节奏创作平台
  • 别只让AI写代码!我是如何用Claude3(Opus)一步步调试出Azure语音识别Python脚本的
  • 【监管科技前沿突破】:VSCode 2026首次集成FINRA Rule 4370合规检查器——自动标记交易逻辑越权调用,准确率99.82%(测试数据源自上交所2025沙盒环境)
  • NLP技术在可持续发展目标(SDG)分类中的应用与实践
  • 别再只会npm install了!解决Vue打包Thread Loader报错,得从Node版本和peerDeps入手
  • Moonlight-PC技术解析:Java跨平台游戏串流架构的演进与启示
  • MedSAM-3:医学图像分割的突破性技术解析
  • 百灵快传:3分钟打造你的局域网文件传输神器
  • 手机变身系统安装神器:EtchDroid让USB启动盘制作如此简单
  • 服务治理技术选型
  • 3分钟掌握Arctium启动器:魔兽世界私服连接终极解决方案
  • ctransformers:基于GGML的本地大语言模型CPU推理加速库实战指南
  • VAE+SPN混合架构:多证据推理的深度学习实践
  • 别再死记硬背了!用CanFestival协议栈实战配置CANOpen PDO(附代码与抓包分析)
  • 终极指南:如何用Aider AI编程助手实现10倍开发效率提升?
  • 集成测试中如何模拟并切换 Taotoken 提供的不同模型响应
  • python altair
  • 3分钟搞定Visual C++运行库问题:一站式修复方案全解析
  • 深度学习注意力机制原理与PyTorch实现详解
  • 技术实现:Illustrator脚本replaceItems.jsx智能对象替换引擎全解析
  • 别再只盯着任务管理器了!用Windows自带的PerfMon性能监视器,5分钟揪出拖慢你电脑的‘内存刺客’
  • 告别软件切换!用uTools插件化工作流,5分钟搞定你的日常效率工具链
  • 2026年5月阿里云Hermes Agent/OpenClaw集成教程+百炼token Plan速览教程
  • 别再乱用TVS了!深入聊聊信号端口(如USB、HDMI)的ESD与浪涌防护设计差异
  • The 2022 ICPC Asia -C
  • 2026年3月评价好的伟昌铝型材实力厂家推荐,断桥推拉窗/菲迪斯门窗/工程门窗/系统窗,伟昌铝型材产品怎么选择 - 品牌推荐师
  • VSCode 2026国产化适配倒计时:2026年Q2起党政机关采购将强制要求“源码级可信构建链”,你还在用x86预编译包?
  • 游戏音频一键解密:acbDecrypter完整指南,轻松提取加密音频资源
  • 深度学习模型集成:策略、实现与优化实践