当前位置：首页 > news >正文

智谱大模型刷屏技术圈：GLM-4.7 是怎么一步步“能干活”的？

news 2026/7/11 16:09:57

关注霍格沃兹测试学院公众号，回复「资料」, 领取人工智能测试开发技术合集

过去一周，技术社区被一个名字反复刷屏：GLM-4.7。

不是发布会造势，也不是营销话术，而是实打实地在 Coding、Agent、前端审美、工程稳定性等多个维度，把一堆榜单和开发者的预期同时点燃。

更关键的是—— 这一次，智谱并不只是“发了个更强的模型”，而是把一整套「如何把模型练成能干活的工程体系」摊在了台面上。

3504c91b-26bd-4122-9dbe-67b5f4479108

一、不是“参数变大”，而是模型真的更会做事了
GLM-4.7 的核心变化，不在于参数规模，而在于目标发生了偏移：

从“答得对”，转向“做得完”。

它的主攻方向非常明确：编程任务 + Agent 式多步骤执行。

这也是为什么它在真实软件工程、终端操作、复杂项目理解这些场景里，明显更稳。

0731c5af-766f-4e22-ad97-4f010cd1c0cc

https://substackcdn.com/image/fetch/f_auto%2Cq_auto%3Agood%2Cfl_progressive%3Asteep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb0c08743-6000-455c-ad3a-12850617cefd_1600x1073.png

6c210f38-4fce-4ae7-81bf-03ecf16e21d5

智谱团队在 AMA 中说得很直白：他们在后训练阶段做的事情，几乎都围绕一个目标——让模型在复杂任务中少跑偏。

二、训练思路的变化：不是猛堆数据，而是“先验证再上桌”
在模型性能跃迁这件事上，GLM-4.7 走的是一条偏工程化的路线。

核心策略可以总结为三点：

数据不是越多越好，而是越“有效”越好
不同领域（代码、数学、科学）使用不同清洗与筛选规则
每一类数据，都会先在同架构的小模型上做消融实验
换句话说：

进大模型训练的数据，必须先“证明自己有用”。

这种流程非常像严谨的软件工程：先小流量验证，再全量上线。

三、交织式思考：让模型“边想边做”，而不是一次性拍脑袋
GLM-4.7 在推理机制上有一个非常关键的变化，智谱给它起了个名字：

交织式思考（Interleaved Thinking）
保留式思考（Preserved Thinking）
轮级思考（Turn-level Thinking）
如果翻译成人话，其实很简单：

不再“一口气想完再执行”，而是每一步都先想清楚，再往下走。

5f71f42d-75cc-4a87-a6fe-c49926bea189

9bd56426-ebda-4ea3-b6f9-df7aff96d4c5

f0f75c99-c732-48c4-8611-38cd6278e550

这对 Agent 任务非常重要。因为一旦第一步规划错了，后面只会错得更彻底。

人工智能技术学习交流群
伙伴们，对AI测试、大模型评测、质量保障感兴趣吗？我们建了一个「人工智能测试开发交流群」，专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索，都欢迎扫码加入，一起抱团成长！期待与你交流！👇

四、为什么它在 Agent 框架里表现更好？
一个容易被忽略的事实是：模型 ≠ 最终效果。

智谱在 AMA 中明确提到：

Agent 框架本身，对最终成功率的影响，可能占到 30% 左右。

因此，他们在 Agent 系统里重点打磨了三件事：

系统提示词结构
工具调用的层级设计
多 Agent 并行时的稳定性
这也是为什么 GLM-4.7 在复杂、多步骤任务中，更不容易“走着走着就散了”。

五、UI 审美突然开窍？其实是被“硬练”出来的
很多人惊讶：

“这代 GLM 怎么突然这么好看？”

答案一点都不玄学。

智谱给出的解释是：他们单独组了一个前端与网页开发团队，专门做一件事——把审美当能力训练。

训练方式也很工程：

收集高质量网页与 UI 案例
使用视觉语言模型（VLM）参与数据筛选
强化布局、比例、动效、层级这些“非语义能力”

最终效果就是：生成结果不再只是“能用”，而是接近可交付。

六、从小游戏到复杂交互：模型已经能“跑完整流程”
在实际演示中，GLM-4.7 已经可以：

一次性生成完整的前端小游戏
支持多轮自然语言修改规则
保持逻辑一致，不崩结构
这背后体现的不是“写代码能力”，而是对整体工程结构的理解能力。

换句话说：它开始像一个“能配合的工程师”，而不只是代码生成器。

七、开源不是口号：智谱把 RL 框架也一并端了出来
这次发布中，一个被很多人低估但极其重要的东西是：

强化学习框架 Slime。

Slime 的目标很明确：把强化学习从“实验室技巧”，变成可长期运转的工程流水线。

caf16b3d-523f-4cae-8b02-e499871cf241

f6062571-0c85-4fba-be1d-8073ea459215
5fd4dd8e-694e-4a39-a908-a6598d9c2b34

它支持：

任务生成
执行与测试
自动反馈
持续迭代
真正解决的问题只有一个：怎么把模型练成“会干活的 Agent”。

八、接下来会发生什么？
关于版本节奏，智谱的态度很耐人寻味：

不排除直接跳过 4.8 / 4.9
GLM-5 可能直接登场
此外，还有两个明确的信号：

新一代 IDE Zcode 正在路上
模型 + 工具 + Agent，会一起打包推进
从方向上看，他们已经不太纠结“榜单第一”，而是更关注一件事：

模型如何真正进入生产，而不是停在 Demo。

写在最后
GLM-4.7 真正引爆技术圈的原因，并不只是“又一个更强模型”。

而是它释放了一个清晰信号：

大模型竞争，正在从“谁更聪明”，进入“谁更工程化、谁更能落地”的阶段。

这场变化，才刚刚开始。

推荐学习
Playwright自动化智能体与AI工作流平台课程，限时免费，机会难得。扫码报名，参与直播，希望您在这场公开课中收获满满，开启智能自动化测试的新篇章！

查看全文

http://www.jsqmd.com/news/160171/

2025年高杆路灯源头厂家年度排名：高杆路灯生产厂哪家更值得选？ - mypinpai

软件测试常见面试题合集（内附详细答案）

【C语言实战经验5】Bug到底怎么产生的？编码小技巧

惊了！ooder-org藏提示词彩蛋｜AI驱动工程典范，1小时焕新DSM全靠A2UI

Git提交规范与PyTorch实验代码版本控制最佳实践

mstsc.exe文件丢失找不到损坏打不开远程问题下载方法

CNN分类准确率提升策略：数据增强+PyTorch实现

【开题答辩全过程】以小区物业管理APP为例，包含答辩的问题和答案

MSVBVM50.DLL文件丢失损坏找不到打不开程序问题下载方法

编写清晰测试文档与报告：软件测试从业者的实战指南

[技术讨论] 【C语言实战经验4】浮点数运算，你踩过什么坑

DiskInfo工具监控GPU磁盘使用情况（配合PyTorch镜像）

2025本科必看8个降AI率工具测评榜单

搞定138译码器(12)，74hc138、74ls138译码器区别探讨

全球激光产业加速扩张，十大企业技术实力全面解析

PyTorch-CUDA-v2.7镜像支持哪些NVIDIA驱动版本？

【开题答辩全过程】以山村留守儿童捐助网站为例，包含答辩的问题和答案

选择专业照明厂家的关键考量维度

2025年行业内优质的干燥设备厂家怎么选择，JFG-C系列高效沸腾干燥机 /多功能动态干燥机厂家口碑推荐 - 品牌推荐师

CNN手写数字识别项目在PyTorch镜像中的实现步骤

41-智能算法-量子遗传算法量子遗传算法将量子的态矢量引入遗传算法，利用量子比特的概率幅应用...

Windows 10 快捷方式

2025年资质齐全的齐鲁云采入驻专业公司排行榜，靠谱企业推荐 - 工业推荐榜

利用地名来查询天气，在jmeter中查看响应结果

如何在云服务器部署PyTorch-CUDA-v2.7用于大模型推理

狗用降噪耳机小型犬可以用吗?狗用降噪耳机小型犬品牌盘点 - 资讯焦点

YOLOv11目标检测实战：基于PyTorch-CUDA-v2.7环境训练

[G32R] 使用 cmake+vscode 环境移植 ThreadX 到 G32R501

JavaScript 中 getItem 方法详解

相关文章：