当前位置: 首页 > news >正文

GLM-4.5 vs GLM-4.7 vs GLM-5 全方位技术演进对比

从 2025 年 7 月到 2026 年 2 月,智谱 AI 在短短 7 个月内连续推出 GLM-4.5、GLM-4.7 和 GLM-5 三代旗舰模型。这不是简单的版本号递增,而是一条清晰的技术演进路线:从统一推理/编码/Agent 能力(ARC)→ 强化 Agentic Coding → 全面迈向 Agentic Engineering。本文将从架构设计、训练策略、基准性能和部署生态四大维度,深度对比三代模型的核心差异与演进脉络。


一、发布时间线与核心定位

维度GLM-4.5GLM-4.7GLM-5
发布时间2025 年 7 月2025 年 12 月2026 年 2 月
核心定位ARC(Agentic + Reasoning + Coding)统一基座Agentic Coding 实战强化Agentic Engineering 范式跃迁
开源协议MITMITMIT
技术报告arXiv:2508.06471基于 GLM-4.5 报告 + 技术博客arXiv:2602.15763
代号/彩蛋“Pony Alpha”(匿名测试)

三代模型的定位层层递进:

  • GLM-4.5解决的是"能不能"的问题——首次在单一模型中统一推理、编码和 Agent 三大能力
  • GLM-4.7解决的是"好不好"的问题——聚焦编码场景的实战打磨,让模型真正"能用"
  • GLM-5解决的是"强不强"的问题——从写代码到写工程,实现完整的系统级工程能力

二、模型架构:从 GQA 到 MLA,从标准 MoE 到 DSA

2.1 核心参数对比

架构维度GLM-4.5GLM-4.7GLM-5
总参数量355B358B744B
激活参数量32B~32B40B
层数92 层(前 3 层 Dense,后 89 层 MoE)~92 层80 层
专家数量160(每层激活 8 个)~160256(每层激活 8 个)
隐藏维度5120~5120扩展
注意力头数96(GQA, 8 组)96调整(MLA)
注意力机制GQA(分组查询注意力)GQA → MLA 过渡MLA + DSA
位置编码Partial RoPE (base 1M)RoPERoPE
上下文长度128K200K200K
最大输出长度128K128K
MTP 层1 层1 层3 层(参数共享)

2.2 三代注意力机制的演进

这是三代模型最核心的架构差异之一:

GLM-4.5:GQA(Grouped-Query Attention)

  • 采用 96 个注意力头、8 个查询组的 GQA 设计
  • 引入 QK-Norm 稳定注意力计算
  • 注意力头数是同规模隐藏维度下的 ~2.5 倍,团队发现虽然训练 loss 没有下降,但推理基准表现一致性提升
  • 优势:成熟稳定,推理效率适中

GLM-4.7:GQA → MLA 过渡

  • Flash 版本已使用 MLA(Multi-head Latent Attention),实现 8× KV Cache 压缩
  • 旗舰版在 GQA 基础上引入了更长上下文(200K)的优化
  • 过渡阶段,为 GLM-5 的全面 MLA 铺路

GLM-5:MLA + DSA(DeepSeek Sparse Attention)

  • 全面采用 MLA,通过低维潜变量压缩 KV Cache
  • 提出Muon Split方法解决 MLA + Muon 优化器的兼容性问题:将上投影矩阵拆分为每个注意力头独立的小矩阵,允许不同头以不同速率更新
  • 注意力头维度从 192 增大到 256(MLA-256 变体),减少 1/3 注意力头数,降低解码阶段计算量
  • 引入DSA 稀疏注意力:动态根据 token 重要性分配注意力资源,将长序列注意力计算降低约 1.5–2 倍
GLM-4.5: GQA (96 heads, 8 groups) → 标准全注意力 ↓ GLM-4.7: GQA + MLA(Flash版) → 200K 上下文,KV Cache 8× 压缩 ↓ GLM-5: MLA-256 + DSA → 稀疏动态注意力,长序列成本减半

2.3 MoE 架构的演进

维度GLM-4.5GLM-4.7GLM-5
路由方式Sigmoid 门控 + 无损平衡路由继承 GLM-4.5优化路由
共享专家有(专用共享专家 + 重叠机制)继承增强
设计理念“更深而非更宽”沿袭 4.5更多专家 + 更少层数
激活比例~1/11 (32B/355B)~1/11~1/18.6 (40B/744B)

GLM-5 的 MoE 架构做了一个关键权衡:将专家数量从 160 扩展到 256,同时将层数从 92 减少到 80。这是为了减少专家并行通信的开销——更多的专家意味着更高的模型容量,而更少的层数减少了跨设备通信的次数。

2.4 多 Token 预测(MTP)的进化

维度GLM-4.5GLM-4.7GLM-5
MTP 层数113(参数共享)
损失系数0.3 → 0.1继承优化
推测解码支持支持接受长度更优

GLM-5 的 MTP 创新在于:训练时共享 3 个 MTP 层的参数,推理时复用同一组参数进行多步推测。这在保持内存成本不变的情况下,显著提升了推测解码的接受率——实测比 DeepSeek-V3.2 在相同推测步数下接受更多 t

http://www.jsqmd.com/news/453957/

相关文章:

  • 如何选择优质品牌设计公司
  • 选购费氏粒度仪的关键指标:不仅仅是看测量范围 - 品牌推荐大师1
  • 数据同步备份软件:数字化时代的“双保险”策略
  • 西门子S7-1200PLC双轴定位算法在电池焊接控制中的应用:博图程序案例与威纶触摸屏操作界面
  • 觉察 改变
  • 全栈开发核心技术解析
  • 互联网大厂Java求职面试实战:三轮技术问答与热点技术深度解析
  • 并网逆变器VSG虚拟同步控制Matlab/Simulink仿真模型及其完全正确结果
  • 2026年阿里云企业邮箱代理商哪家好?真实案例解析靠谱伙伴 - 品牌2026
  • 2026年 拉力带厂家推荐排行榜:弹性拉力带/11件套拉力带/练背拉伸带,专业健身辅具助力科学塑形 - 品牌企业推荐师(官方)
  • 京东e卡怎么换成现金,亲测快捷的三种方式 - 猎卡回收公众号
  • 咱们直接动手搭个T型逆变器模型试试。先整明白核心结构:三相桥臂中间各接两个双向开关,形成T字拓扑。这种结构优势在于能输出五电平电压,谐波特性比传统三电平好不少
  • 国产化、安可、信创、自主可控说的是什么?一文读懂
  • 2026年知名的娃娃机_文审机_弹珠机源头厂家推荐-陕西英杰儿童主题乐园有限公司 - 朴素的承诺
  • 2026年 毛呢面料厂家推荐排行榜:羊毛/羊绒/驼绒/阿尔巴卡/功能性面料,精选实力源头工厂与创新工艺解析 - 品牌企业推荐师(官方)
  • 深度解析NX PowerLite智能压缩技术原理
  • 做 Agent,不一定要先改 workflow,也可以先把模型成本降下来
  • 织梦程序访问首页或其他页面出现空白问题是什么原因?织梦dedecms
  • 2026天然石口碑厂家推荐:选材更放心,文化石/地铺石/蘑菇石/贴墙石/石材/碎拼石/冰裂纹/脚踏石,天然石厂家推荐榜单 - 品牌推荐师
  • Epson M-G366PDG惯性测量单元:精准导航与稳定控制的理想选择
  • 知识点总结2
  • 2026广东 EUDR 认证 + 亚马逊气候友好认证双优:靠谱环评公司 TOP5 榜单 - 深度智识库
  • 【Squid系列005篇】Squid配置CDN节点
  • 安全加固思路
  • 避坑指南|2026西安娃娃机厂家优选,陕西英杰破解采购回收全痛点 - 朴素的承诺
  • Linux密码破解
  • 前端javascript八股文之ES6+/TS/ 异步编程面试题
  • 帛书《周易》“奪”象不是《易经》“兑”卦
  • COMSOL多物理场模拟:流体-热-相场耦合模型在烧开水蒸发过程中的应用与解析
  • 数据资产入表怎么选?2026年五大核心厂商能力全景解析 - 品牌2026