GLM 5.2 单模型测评报告
智谱 GLM-5.2 发布:国产大模型迎来“王者归来”
测试工具:opencode。
测试任务:FlowTask 团队任务看板系统,从需求分析、开发、测试到 UCloud 云端部署。
测试环境:UCloud 云服务器、Ubuntu 镜像、公网 IP、UCloud 防火墙/安全组、Docker Compose、PostgreSQL。
评分口径:10 个评分项,每项 20 分,总分 200 分。
费用口径:用户提供的 UCloud 模型服务平台账单截图中“筛选合计 / 订单总额”。
评测团队:UCloud技术研究院
生成日期:2026-06-17。
一、结论摘要
GLM 5.2 本轮综合分为189/200,是当前轮次综合表现最高的模型。它的主要优势是0 次人工介入、需求文档完整、后端约束和权限落地较好、测试和云端部署链路完整,本地和云端 E2E 均通过。
需要注意的问题有 2 个,均为前端小 Bug:长文本标题溢出容器、首页缺少可见注册入口。另外,部署文档仍有root@IP口径,实际部署需要使用ubuntu用户;部署元数据中出现 SSH 密码字段,正式项目需要改成更严格的敏感信息管理方式。
| 指标 | 数值 |
|---|---|
| 综合分 | 189/200 |
| 排名 | 本轮第 1 |
| 实际费用 | ¥50.74 |
| 每 1 分成本 | ¥0.27/分 |
| Token 总数 | 16.62M |
| 每 1M Token 成本 | ¥3.05 |
| 总耗时 | 1h55m25s |
| 需求阶段耗时 | 2min30s |
| 开发阶段耗时 | 69min11s + 43min44s |
| 对话消息总次数 | 205 |
| assistant 总消息数 | 202 |
| 需求分析 assistant 消息数 | 2 |
| 开发阶段 assistant 消息数 | 200 |
| 人工介入次数 | 0 |
| 人工验收问题数 | 2 |
| 开发自修 Bug 数 | 14 |
二、阶段评分
| 阶段 | 满分 | 得分 | 备注 |
|---|---|---|---|
| 需求理解 RU | 20 | 20 | Plan 文档完整覆盖实体、字段约束、权限、状态机、筛选和日历 |
| 功能设计 FD | 20 | 20 | 12 个 API、E2E-0115、UT-0121 设计完整 |
| 架构设计 AD | 20 | 18 | 技术栈、DDL、分层、Docker、UCloud 架构完整;扣 SSH 用户口径仍写root@IP |
| 前端实现 FE | 20 | 17 | 看板、日历、筛选、邀请、权限入口基本完整;扣首页缺少注册入口、删除动画细节和长文本标题溢出 |
| 后端实现 BE | 20 | 20 | 认证、权限、状态机、字段约束、筛选、种子数据完整 |
| 功能测试 TS | 20 | 19 | 后端 23 个单测通过,本地和云端 E2E 15/15 通过;扣少量 E2E 断言偏浅 |
| 问题处理 PD | 20 | 20 | 开发、测试、部署问题均由模型独立定位并闭环,无人工介入 |
| 代码质量检查 CR | 20 | 18 | 分层清晰、接口一致;扣 README/Plan 的 SSH 用户口径和部署元数据含敏感字段 |
| UCloud 部署 DP | 20 | 20 | UCloud 资源创建、Docker 部署、防火墙、公网验收、云端 E2E 均完成 |
| 质量分 | 20 | 17 | 人工验收 2 个小 Bug;扣长文本标题溢出、首页缺少注册入口和轻微文档/安全治理风险 |
| 综合分 | 200 | 189 | 本轮综合表现最高 |
三、扣分明细
| 小项 | 满分 | 得分 | 扣分 | 扣分依据 |
|---|---|---|---|---|
| AD-04 部署架构 | 4 | 2 | 2 | Plan 和 README 多处写ssh root@<IP>;实际部署中需要改用ubuntu才完成 SSH。 |
| FE-01 基础页面与导航 | 3 | 2 | 1 | 首页页面只有登录按钮,无法直接切换到注册页面;实际/register页面存在且可正常注册。 |
| FE-06 动画与交互反馈 | 2 | 1 | 1 | 前端有 FAB、弹窗、Toast、任务进入动画,但删除流程主要是确认弹窗,删除动画闭环证据不足。 |
| FE-08 响应式适配 | 1 | 0 | 1 | 人工验收发现长文本标题溢出容器,文本保护不足。 |
| TS-02 E2E 覆盖和通过率 | 4 | 3 | 1 | E2E 本地和云端均 15/15 通过,但部分用例只断言页面可见或列存在,成员筛选、状态筛选、响应式断言偏浅。 |
| CR-02 安全与错误处理 | 7 | 5 | 2 | deploy-meta.json记录了 SSH 密码字段,作为项目产物存在敏感信息治理风险。 |
四、费用、耗时和 Token
| 指标 | 数值 |
|---|---|
| 实际费用 | ¥50.74 |
| 综合分 | 189/200 |
| 每 1 分成本 | ¥0.27/分 |
| Token 总数 | 16.62M |
| 输入 Token | 5.24M |
| 输出 Token | 0.08M |
| 推理 Token | 0.01M |
| 缓存读取 Token | 11.30M |
| 每 1M Token 成本 | ¥3.05 |
| 总耗时 | 1h55m25s |
| 需求阶段耗时 | 2min30s |
| 开发阶段耗时 | 69min11s + 43min44s |
五、Session 统计
| 指标 | 数值 |
|---|---|
| Session ID | ses_12bc851d2ffeANXdiM3RXDxRLz |
| Session 标题 | GLM5-2 - FT - 团队任务看板系统技术方案设计 |
| 代码目录 | /Users/imnight/Documents/flowtask-test/glm-5.2/FlowTask |
| AI 输出需求文档行数 | 698 |
| AI 输出需求文档非空行数 | 592 |
| 输入需求总行数 | 330 |
| 输入需求非空行数 | 279 |
| session 总消息数 | 205 |
| assistant 总消息数 | 202 |
| 需求分析 assistant 消息数 | 2 |
| 开发阶段 assistant 消息数 | 200 |
六、部署信息
| 项目 | 内容 |
|---|---|
| 部署访问地址 | http://IP |
| 后端 health 地址 | http://IP:3000/health |
| 部署方式 | Docker Compose 部署 frontend、backend、PostgreSQL |
| 重启恢复 | Docker Compose 服务配置restart: unless-stopped |
公网复查记录:
http://IP/返回 200。http://IP:3000/health返回{"success":true,"data":{"status":"ok"}}。- 测试账号登录成功,账号信息已脱敏。
- session 交付报告记录云端 E2E:15 passed in 33s。
七、需求和实现依据
需求理解方面,GLM 5.2 的 Plan 文档明确覆盖核心实体、字段类型、字段约束、权限模型、状态机、筛选和日历能力。
关键约束覆盖情况:
| 约束项 | 是否覆盖 |
|---|---|
| role 枚举 | 覆盖 |
| priority 枚举 | 覆盖 |
| status 枚举 | 覆盖 |
| 用户名 3-20 字符 | 覆盖 |
| 密码不少于 6 位 | 覆盖 |
| 标题 1-100 字符 | 覆盖 |
| 描述不超过 500 字符 | 覆盖 |
代码实现依据:
backend/app/schema_sql.py落地chk_username、chk_role、chk_priority、chk_status、chk_title、chk_desc。backend/app/schemas/user.py、backend/app/schemas/task.py、backend/app/schemas/member.py落地 Pydantic 字段校验。backend/app/services/task_service.py落地状态机校验,非法流转返回 400。backend/app/deps/permission.py落地 readonly 写操作 403。
八、人工验收问题
| 序号 | 问题 | 影响范围 | 严重程度 |
|---|---|---|---|
| 1 | 页面标题太长时溢出容器 | 前端显示 | 小 Bug |
| 2 | 首页只有登录按钮,缺少可见注册入口;实际/register页面存在且可正常注册 | 前端入口/导航 | 小 Bug |
判断:这两个问题不影响后端核心能力、部署能力和主流程验收,但会影响正式交付时的用户体验。正式采用前应安排工程师修复并重新验收前端页面。
九、开发自修 Bug
开发自修 Bug 数只统计模型在正式 FT session 中自己遇到失败、报错、测试不通过或部署异常后,自己定位、修改并复测的闭环事件。同一根因多次重试只算 1 个;人工验收发现的问题不计入这里。
| 序号 | 自修 Bug / 异常 | 归类 |
|---|---|---|
| 1 | 前端 import 路径错误导致构建失败,修正 auth 页面 import | 前端构建 |
| 2 | import.meta.env/ Vite 类型问题,补充类型声明 | 前端构建 |
| 3 | PostgreSQL 旧 volume 导致密码认证失败,清理并改唯一 volume 名称 | 数据库/Docker |
| 4 | /api/users无 token 返回 500,重构 auth dependency 后返回 401 | 后端鉴权 |
| 5 | 单测中 register 后错误读取 token,改为注册后登录获取 token | 测试 |
| 6 | pytest marker 配置缺失/不稳,补充 pytest 配置 | 测试配置 |
| 7 | E2E 相对导入失败,调整导入方式 | E2E |
| 8 | E2E rootdir/timeout 参数问题,调整运行方式 | E2E |
| 9 | 注册后未自动跳转首页导致 E2E 失败,修正登录/注册路由跳转 | 前端路由 |
| 10 | UCloud SSH 密码登录失败,停止/重置/启动并切换ubuntu用户完成连接 | 部署/SSH |
| 11 | 远端服务器无 Docker,安装 Docker Engine 和 Compose plugin | 部署/Docker |
| 12 | Docker Hub 拉取超时,配置镜像加速和后台构建 | 部署/网络 |
| 13 | Debian apt 源下载极慢,优化 Dockerfile 去掉 apt 编译依赖 | 部署/构建 |
| 14 | PyPI 访问失败,改用国内 pip 源;公网 80/3000 超时后配置 UCloud 防火墙 | 部署/网络 |
十、最终判断
GLM 5.2 本轮是最值得优先考虑的模型:分数最高、费用低、0 人工介入、部署完整,整体交付质量明显高于 GLM 5.1,也比高价模型更有成本优势。
但它仍不是完全免审核交付。正式项目使用前,建议工程师重点检查三件事:长文本显示、注册入口、敏感部署信息。这三项处理完后,GLM 5.2 可以作为本轮测评里的首选方案。
