当前位置：首页 > news >正文

智谱×昇腾×昇思：自主创新算力赋能，多模态SOTA模型再迎新突破

news 2026/3/26 17:15:21

在AI核心技术从“专用工具”向“通用智能伙伴”跨越的今天，全球算力升级正在支撑百万级Token的长上下文处理，并通过整合文本、图像、音频、视频及3D点云等多源数据，推动人机交互向“所见即所得”的多模态交互演进。

继谷歌发布Nano Banana Pro认知型生成模型之后，1月14日，智谱联合华为也正式发布了新一代图像生成模型GLM-Image。作为智谱面向「认知型生成」技术范式的一次重要探索，该模型采用自主创新的「自回归＋扩散解码器」混合架构，实现了图像生成与语言模型的协同。

得益于昇腾NPU和昇思MindSpore AI框架所提供的从数据到训练的全流程支撑，GLM-Image不仅是首个基于自主创新算力底座全程训练的SOTA多模态模型，也是首个开源的工业表现级离散自回归图像生成模型。1月15日，GLM-Image更是登顶全球知名AI开源社区Hugging Face Trending榜。这也是中国首次实现基于自主创新算力底座的前沿多模态模型全流程训练与全球开源榜首突破。

可以说，GLM-Image的创新实践，既验证了在昇腾全栈算力底座上训练高性能多模态生成模型的可行性，也为社区挖掘自主创新算力潜力提供了重要参考。

拥抱架构创新，打造中国版开源Nano Banana

过去几年，文本生成图像（T2I）与多模态生成式模型的能力突飞猛进，尤其是Nano Banana Pro的问世，文本生成图像正在广泛应用于角色一致性、照片修复及无限画布局部编辑等场景，成为创意与技术深度融合的助推器。

作为全球首家以通用人工智能（AGI）基座大模型为核心业务的上市公司，智谱也在积极开展AI图像生成与编辑模型的创新。智谱全新推出的GLM-Image，在实际复杂图文任务中的表现让人眼前一亮。

比如，在科普插画中，GLM-Image可以绘制出包含复杂逻辑流程与文字说明的科普插画及原理示意图；在社交媒体图文封面中，GLM-Image可以制作社交媒体封面及内容等排版复杂的图片；在商业海报中，GLM-Image能够生成构图富有设计感、文字嵌入准确的节日海报与商业宣传图。

GLM-Image之所以能够让创作更自由丰富，首先得益于创新的「自回归+扩散解码器」混合架构，可兼顾全局指令理解与局部细节刻画，克服海报、PPT、科普图等知识密集型场景生成难题。同时，GLM-Image还能够自适应处理多种分辨率，帮助用户生成任意比例的图像。

在此基础上，GLM-Image在文字渲染的权威榜单中达到开源SOTA水平。其中，在CVTG-2K（复杂视觉文本生成）和LongText-Bench（长文本渲染）榜单均位列开源模型第一，可大大提升在图像中同时生成多处文字的准确性，以及渲染长文本、多行文字的准确性。

昇腾+昇思，全栈自主创新算力底座助力模型训练

除了采用创新的混合架构之外，GLM-Image还是首个基于自主创新算力底座全程训练的SOTA模型。模型的自回归结构基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架，完成了从数据预处理到大规模训练的全流程构建，充分验证了在全栈自主创新算力底座上也能训练出SOTA模型。

其中，Atlas 800T A2作为昇腾训练服务器设备，具有高计算密度、高能效比、高网络带宽、易扩展、易管理等特点，可以更好地满足智谱在深度学习模型开发和AI训练服务场景上的需要。

而昇思MindSpore AI框架则内置大模型训练所需的多种并行能力，可提供简单易用的大模型分布式策略配置接口，帮助智谱快速实现高性能的大模型分布式训练。同时，该框架通过动静统一编程，可最大程度地发挥昇腾硬件能力，帮助智谱缩短训练时间，提升推理性能。

依托昇腾NPU与昇思MindSpore AI框架，智谱利用动态图多级流水下发、高性能融合算子、多流并行等特性，自研了一整套模型训练套件，对数据预处理、预训练、SFT（监督微调）和RL（强化学习）的端到端流程进行了全面优化。

其中，借助动态图的多级流水优化机制，将Host侧算子下发的关键阶段流水化并高度重叠，可提升训练性能20%；借助AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子，可提升训练的稳定性，并将通信效率提升15%；借助多流并行策略，将通信和计算相互掩盖，打破了文本梯度同步、图像特征广播等操作的通信墙，可整体提升训练性能10%。

自主创新算力引领，人工智能产业发展再迎新突破

当前，全球AI产业竞争日趋激烈，国外大模型技术的创新与迭代速度持续加快。在此背景下，智谱携手华为，在积极探索模型架构创新的同时，将自主创新算力充分应用到SOTA多模态模型训练中，不仅展现出中国企业在AI领域的创新实力，更凸显了自主创新算力底座所扮演的重要角色。

首先，验证了自主创新算力也能高性能训出SOTA模型。如今，模型训练对算力的计算精度、通信效率、软硬件协同优化的要求持续提升。智谱通过“昇腾+昇思”的应用实践，不仅打破了自主创新算力难以胜任尖端AI训练的刻板印象，也充分证明了自主创新算力完全有能力承载并驱动最前沿的AI研究与工程实践。

其次，为中国AI企业开展模型训练提供了极具价值的参考借鉴。智谱借助“昇腾+昇思”，从数据预处理、预训练到监督微调，再到强化学习，为中国企业、开源社区开展模型训练提供了端到端的全流程自主创新技术的落地范例，可帮助企业开发者降低自主创新算力底座的应用门槛，加速推进模型创新与落地进程。

再次，推动了全栈自主创新算力生态的繁荣发展。AI产业的创新发展，离不开算力底座、模型架构和应用落地三者的相互协同，智谱与昇腾、昇思的协同，不仅提升了模型训练的效率与安全性，也反向驱动了昇腾与昇思的能力提升，加速自主创新算力底座从“可用”到“好用”的进化，并为推进AI产业生态的繁荣奠定了坚实基础。

最后，加速了多模态AI技术自主创新与普惠化进程。多模态作为通往通用人工智能的关键一环，其能力直接关乎未来数字内容创作、智能交互等核心产业的创新发展。智谱借助昇腾、昇思成功训练出GLM-Image，意味着中国AI产业可以更加安全、高效地开展多模态AI的创新，从而推动多模态技术更快速、更广泛地应用到各行各业。

在多模态AI成为技术创新与产业应用核心方向的今天，智谱携手昇腾、昇思，其突破性远远不止于打造一个优秀的图像生成模型，更是一次自主创新算力底座支撑SOTA模型训练的关键验证。随着智谱与昇腾合作的持续深化，也将吸引更多企业加入自主创新的AI生态构建中，推动中国AI产业高质量发展。未来，中国AI产业完全有能力构建从算力底座到应用创新的全链路竞争力，并为全球AI产业的发展贡献中国智慧和中国方案。

查看全文

http://www.jsqmd.com/news/279975/