腾讯混元3.0:编程能力提升40%,SWE-bench得分74.4%接近GLM-4.7
腾讯混元3.0来了:前OpenAI研究员操刀,编程能力一口气提升40%
腾讯的大模型更新来了。混元3.0(Hy3)近日以"Hy3 preview"名义在OpenRouter平台免费上线。这次最直接的变化是编程能力——SWE-bench测试中,混元3.0得分74.4%,前代混元2.0只有53.0%,提升超过40%。
背后值得关注的人:姚顺雨,前OpenAI研究员,被腾讯挖角后主导了混元3.0的研发。
工具地址:腾讯混元官网
一、模型基本参数
项目规格模型名称混元3.0(Hy3)架构类型MoE(混合专家模型)推理级别三个推理级别上下文长度262K推理速度23 Token/s模态文本型(当前上线版本)访问方式OpenRouter免费体验(Hy3 preview)
需要说明的是:前代混元2.0是多模态模型,但这次混元3.0目前上线的是文本型版本,多模态能力暂未上线。
二、架构解析:MoE + 三级推理
混元3.0采用MoE(Mixture of Experts,混合专家)架构。核心逻辑:模型内部有多个"专家模块",每次推理只激活其中一部分,而不是跑遍所有参数。这样在保持大参数规模的同时,控制实际计算量。
三个推理级别可以根据任务复杂度灵活切换:
•快速级别:适合简单问答,响应速度优先
•标准级别:平衡速度与质量,适合大多数场景
•深度推理级别:适合复杂编程、逻辑推理,高质量但更慢
262K上下文意味着可以在单次对话中处理约20万字——分析完整代码仓库、阅读长篇法律合同、处理长文档等都适用。
三、性能表现:编程能力基准
模型SWE-bench得分说明混元2.0(Hy2)53.0%前代旗舰混元3.0(Hy3)74.4%提升超40%GLM-4.7接近74.4%智谱AI旗舰GLM-5高于74.4%智谱AI新一代Opus 4.6显著高于74.4%当前行业标杆
混元3.0已进入国内大模型第一梯队,与GLM-4.7处于同一水平线。距GLM-5有差距,距Opus 4.6有较大距离。需要注意的是:目前混元3.0官方技术报告和完整基准数据尚未公布,上述SWE-bench数据来自用户实测。
四、产品定位:闭源 + 腾讯全家桶
混元3.0的路线与DeepSeek形成鲜明对比:
•DeepSeek:开源、低成本、私有部署,面向开发者
•混元3.0:闭源、深度整合腾讯生态,面向不想折腾、希望开箱即用的用户
对于已深度使用腾讯产品的用户,无缝集成体验是实在优势。
文章来源:AITOP100
