当前位置：首页 > news >正文

GLM-4.5-FP8：355B参数MoE模型推理效率新突破

news 2026/4/13 22:30:42

GLM-4.5-FP8：355B参数MoE模型推理效率新突破

【免费下载链接】GLM-4.5-FP8项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-FP8

导语

GLM-4.5-FP8作为最新开源的3550亿参数混合专家（Mixture-of-Experts, MoE）模型，通过FP8量化技术实现了推理效率的显著提升，在保持高性能的同时将硬件需求降低50%，为大语言模型的工业化部署提供了关键技术突破。

行业现状

当前大语言模型领域正面临"性能-效率"的双重挑战。一方面，模型规模持续扩大，参数量从千亿级向万亿级迈进，带来了推理成本的急剧上升；另一方面，企业对部署效率和响应速度的要求不断提高。据行业报告显示，2024年大模型推理成本占AI基础设施支出的62%，而GPU资源的稀缺性进一步加剧了这一矛盾。在此背景下，混合专家架构（MoE）与低精度量化技术成为平衡性能与效率的重要方向，其中FP8量化因能在保持精度的同时减少50%显存占用，正逐步成为行业新宠。

产品/模型亮点

GLM-4.5-FP8最显著的突破在于其"高效能"设计理念。作为3550亿总参数的MoE模型，其仅激活320亿参数进行计算，结合FP8量化技术，实现了硬件需求的大幅降低。在推理配置方面，相比BF16版本需要8张H100 GPU，FP8版本仅需4张H100即可运行；若使用最新H200 GPU，单卡即可支持GLM-4.5-Air-FP8（1060亿总参数）的推理需求，这一进步使大模型的部署门槛显著降低。

模型创新性地采用"混合推理模式"，提供两种工作方式：思考模式（Thinking Mode）适用于复杂推理和工具调用场景，通过多步骤分析提升任务准确率；非思考模式（Non-thinking Mode）则针对简单问答，直接生成响应以提高速度。这种设计使模型能根据任务类型智能调整推理策略，在AIME 24数学竞赛中获得91.0%的得分，SWE-bench Verified代码任务中达到64.2%的准确率，展现了在复杂任务处理上的优势。

行业影响

GLM-4.5-FP8的推出将加速大模型的工业化落地进程。对于企业用户而言，FP8量化带来的硬件成本降低具有直接吸引力——以每日1000万次推理请求计算，采用FP8版本可减少约40%的GPU采购成本。同时，模型开源策略（MIT许可证）允许商业使用和二次开发，这将促进金融、医疗、教育等垂直领域的定制化应用开发。

在技术层面，该模型验证了MoE架构与FP8量化结合的可行性，为后续模型优化提供了方向。其在vLLM、SGLang等主流推理框架的原生支持，也推动了大模型部署生态的标准化发展。值得注意的是，GLM-4.5系列同时提供355B和106B（Air版本）两种规格，形成了覆盖高端需求与轻量化部署的产品矩阵，这种分级策略可能成为未来大模型发布的新范式。