当前位置：首页 > news >正文

GLM-4.5 vs GLM-4.7 vs GLM-5 全方位技术演进对比

news 2026/3/27 5:21:53

从 2025 年 7 月到 2026 年 2 月，智谱 AI 在短短 7 个月内连续推出 GLM-4.5、GLM-4.7 和 GLM-5 三代旗舰模型。这不是简单的版本号递增，而是一条清晰的技术演进路线：从统一推理/编码/Agent 能力（ARC）→ 强化 Agentic Coding → 全面迈向 Agentic Engineering。本文将从架构设计、训练策略、基准性能和部署生态四大维度，深度对比三代模型的核心差异与演进脉络。

一、发布时间线与核心定位

维度	GLM-4.5	GLM-4.7	GLM-5
发布时间	2025 年 7 月	2025 年 12 月	2026 年 2 月
核心定位	ARC（Agentic + Reasoning + Coding）统一基座	Agentic Coding 实战强化	Agentic Engineering 范式跃迁
开源协议	MIT	MIT	MIT
技术报告	arXiv:2508.06471	基于 GLM-4.5 报告 + 技术博客	arXiv:2602.15763
代号/彩蛋	—	—	“Pony Alpha”（匿名测试）

三代模型的定位层层递进：

GLM-4.5解决的是"能不能"的问题——首次在单一模型中统一推理、编码和 Agent 三大能力
GLM-4.7解决的是"好不好"的问题——聚焦编码场景的实战打磨，让模型真正"能用"
GLM-5解决的是"强不强"的问题——从写代码到写工程，实现完整的系统级工程能力

二、模型架构：从 GQA 到 MLA，从标准 MoE 到 DSA

2.1 核心参数对比

架构维度	GLM-4.5	GLM-4.7	GLM-5
总参数量	355B	358B	744B
激活参数量	32B	~32B	40B
层数	92 层（前 3 层 Dense，后 89 层 MoE）	~92 层	80 层
专家数量	160（每层激活 8 个）	~160	256（每层激活 8 个）
隐藏维度	5120	~5120	扩展
注意力头数	96（GQA, 8 组）	96	调整（MLA）
注意力机制	GQA（分组查询注意力）	GQA → MLA 过渡	MLA + DSA
位置编码	Partial RoPE (base 1M)	RoPE	RoPE
上下文长度	128K	200K	200K
最大输出长度	—	128K	128K
MTP 层	1 层	1 层	3 层（参数共享）

2.2 三代注意力机制的演进

这是三代模型最核心的架构差异之一：

GLM-4.5：GQA（Grouped-Query Attention）

采用 96 个注意力头、8 个查询组的 GQA 设计
引入 QK-Norm 稳定注意力计算
注意力头数是同规模隐藏维度下的 ~2.5 倍，团队发现虽然训练 loss 没有下降，但推理基准表现一致性提升
优势：成熟稳定，推理效率适中

GLM-4.7：GQA → MLA 过渡

Flash 版本已使用 MLA（Multi-head Latent Attention），实现 8× KV Cache 压缩
旗舰版在 GQA 基础上引入了更长上下文（200K）的优化
过渡阶段，为 GLM-5 的全面 MLA 铺路

GLM-5：MLA + DSA（DeepSeek Sparse Attention）

全面采用 MLA，通过低维潜变量压缩 KV Cache
提出Muon Split方法解决 MLA + Muon 优化器的兼容性问题：将上投影矩阵拆分为每个注意力头独立的小矩阵，允许不同头以不同速率更新
注意力头维度从 192 增大到 256（MLA-256 变体），减少 1/3 注意力头数，降低解码阶段计算量
引入DSA 稀疏注意力：动态根据 token 重要性分配注意力资源，将长序列注意力计算降低约 1.5–2 倍

GLM-4.5: GQA (96 heads, 8 groups) → 标准全注意力 ↓ GLM-4.7: GQA + MLA(Flash版) → 200K 上下文，KV Cache 8× 压缩 ↓ GLM-5: MLA-256 + DSA → 稀疏动态注意力，长序列成本减半

2.3 MoE 架构的演进

维度	GLM-4.5	GLM-4.7	GLM-5
路由方式	Sigmoid 门控 + 无损平衡路由	继承 GLM-4.5	优化路由
共享专家	有（专用共享专家 + 重叠机制）	继承	增强
设计理念	“更深而非更宽”	沿袭 4.5	更多专家 + 更少层数
激活比例	~1/11 (32B/355B)	~1/11	~1/18.6 (40B/744B)