当前位置：首页 > news >正文

GLM 5.2 单模型测评报告

news 2026/6/18 11:22:35

智谱 GLM-5.2 发布：国产大模型迎来“王者归来”

测试工具：opencode。
测试任务：FlowTask 团队任务看板系统，从需求分析、开发、测试到 UCloud 云端部署。
测试环境：UCloud 云服务器、Ubuntu 镜像、公网 IP、UCloud 防火墙/安全组、Docker Compose、PostgreSQL。
评分口径：10 个评分项，每项 20 分，总分 200 分。
费用口径：用户提供的 UCloud 模型服务平台账单截图中“筛选合计 / 订单总额”。
评测团队：UCloud技术研究院
生成日期：2026-06-17。

一、结论摘要

GLM 5.2 本轮综合分为189/200，是当前轮次综合表现最高的模型。它的主要优势是0 次人工介入、需求文档完整、后端约束和权限落地较好、测试和云端部署链路完整，本地和云端 E2E 均通过。

需要注意的问题有 2 个，均为前端小 Bug：长文本标题溢出容器、首页缺少可见注册入口。另外，部署文档仍有root@IP口径，实际部署需要使用ubuntu用户；部署元数据中出现 SSH 密码字段，正式项目需要改成更严格的敏感信息管理方式。

指标	数值
综合分	189/200
排名	本轮第 1
实际费用	¥50.74
每 1 分成本	¥0.27/分
Token 总数	16.62M
每 1M Token 成本	¥3.05
总耗时	1h55m25s
需求阶段耗时	2min30s
开发阶段耗时	69min11s + 43min44s
对话消息总次数	205
assistant 总消息数	202
需求分析 assistant 消息数	2
开发阶段 assistant 消息数	200
人工介入次数	0
人工验收问题数	2
开发自修 Bug 数	14

二、阶段评分

阶段	满分	得分	备注
需求理解 RU	20	20	Plan 文档完整覆盖实体、字段约束、权限、状态机、筛选和日历
功能设计 FD	20	20	12 个 API、E2E-01_15、UT-0121 设计完整
架构设计 AD	20	18	技术栈、DDL、分层、Docker、UCloud 架构完整；扣 SSH 用户口径仍写`root@IP`
前端实现 FE	20	17	看板、日历、筛选、邀请、权限入口基本完整；扣首页缺少注册入口、删除动画细节和长文本标题溢出
后端实现 BE	20	20	认证、权限、状态机、字段约束、筛选、种子数据完整
功能测试 TS	20	19	后端 23 个单测通过，本地和云端 E2E 15/15 通过；扣少量 E2E 断言偏浅
问题处理 PD	20	20	开发、测试、部署问题均由模型独立定位并闭环，无人工介入
代码质量检查 CR	20	18	分层清晰、接口一致；扣 README/Plan 的 SSH 用户口径和部署元数据含敏感字段
UCloud 部署 DP	20	20	UCloud 资源创建、Docker 部署、防火墙、公网验收、云端 E2E 均完成
质量分	20	17	人工验收 2 个小 Bug；扣长文本标题溢出、首页缺少注册入口和轻微文档/安全治理风险
综合分	200	189	本轮综合表现最高

三、扣分明细

小项	满分	得分	扣分	扣分依据
AD-04 部署架构	4	2	2	Plan 和 README 多处写`ssh root@<IP>`；实际部署中需要改用`ubuntu`才完成 SSH。
FE-01 基础页面与导航	3	2	1	首页页面只有登录按钮，无法直接切换到注册页面；实际`/register`页面存在且可正常注册。
FE-06 动画与交互反馈	2	1	1	前端有 FAB、弹窗、Toast、任务进入动画，但删除流程主要是确认弹窗，删除动画闭环证据不足。
FE-08 响应式适配	1	0	1	人工验收发现长文本标题溢出容器，文本保护不足。
TS-02 E2E 覆盖和通过率	4	3	1	E2E 本地和云端均 15/15 通过，但部分用例只断言页面可见或列存在，成员筛选、状态筛选、响应式断言偏浅。
CR-02 安全与错误处理	7	5	2	`deploy-meta.json`记录了 SSH 密码字段，作为项目产物存在敏感信息治理风险。

四、费用、耗时和 Token

指标	数值
实际费用	¥50.74
综合分	189/200
每 1 分成本	¥0.27/分
Token 总数	16.62M
输入 Token	5.24M
输出 Token	0.08M
推理 Token	0.01M
缓存读取 Token	11.30M
每 1M Token 成本	¥3.05
总耗时	1h55m25s
需求阶段耗时	2min30s
开发阶段耗时	69min11s + 43min44s

五、Session 统计

指标	数值
Session ID	`ses_12bc851d2ffeANXdiM3RXDxRLz`
Session 标题	GLM5-2 - FT - 团队任务看板系统技术方案设计
代码目录	`/Users/imnight/Documents/flowtask-test/glm-5.2/FlowTask`
AI 输出需求文档行数	698
AI 输出需求文档非空行数	592
输入需求总行数	330
输入需求非空行数	279
session 总消息数	205
assistant 总消息数	202
需求分析 assistant 消息数	2
开发阶段 assistant 消息数	200

六、部署信息

项目	内容
部署访问地址	`http://IP`
后端 health 地址	`http://IP:3000/health`
部署方式	Docker Compose 部署 frontend、backend、PostgreSQL
重启恢复	Docker Compose 服务配置`restart: unless-stopped`

公网复查记录：

http://IP/返回 200。
http://IP:3000/health返回{"success":true,"data":{"status":"ok"}}。
测试账号登录成功，账号信息已脱敏。
session 交付报告记录云端 E2E：15 passed in 33s。

七、需求和实现依据

需求理解方面，GLM 5.2 的 Plan 文档明确覆盖核心实体、字段类型、字段约束、权限模型、状态机、筛选和日历能力。

关键约束覆盖情况：

约束项	是否覆盖
role 枚举	覆盖
priority 枚举	覆盖
status 枚举	覆盖
用户名 3-20 字符	覆盖
密码不少于 6 位	覆盖
标题 1-100 字符	覆盖
描述不超过 500 字符	覆盖

代码实现依据：

backend/app/schema_sql.py落地chk_username、chk_role、chk_priority、chk_status、chk_title、chk_desc。
backend/app/schemas/user.py、backend/app/schemas/task.py、backend/app/schemas/member.py落地 Pydantic 字段校验。
backend/app/services/task_service.py落地状态机校验，非法流转返回 400。
backend/app/deps/permission.py落地 readonly 写操作 403。

八、人工验收问题

序号	问题	影响范围	严重程度
1	页面标题太长时溢出容器	前端显示	小 Bug
2	首页只有登录按钮，缺少可见注册入口；实际`/register`页面存在且可正常注册	前端入口/导航	小 Bug

判断：这两个问题不影响后端核心能力、部署能力和主流程验收，但会影响正式交付时的用户体验。正式采用前应安排工程师修复并重新验收前端页面。

九、开发自修 Bug

开发自修 Bug 数只统计模型在正式 FT session 中自己遇到失败、报错、测试不通过或部署异常后，自己定位、修改并复测的闭环事件。同一根因多次重试只算 1 个；人工验收发现的问题不计入这里。

序号	自修 Bug / 异常	归类
1	前端 import 路径错误导致构建失败，修正 auth 页面 import	前端构建
2	`import.meta.env`/ Vite 类型问题，补充类型声明	前端构建
3	PostgreSQL 旧 volume 导致密码认证失败，清理并改唯一 volume 名称	数据库/Docker
4	`/api/users`无 token 返回 500，重构 auth dependency 后返回 401	后端鉴权
5	单测中 register 后错误读取 token，改为注册后登录获取 token	测试
6	pytest marker 配置缺失/不稳，补充 pytest 配置	测试配置
7	E2E 相对导入失败，调整导入方式	E2E
8	E2E rootdir/timeout 参数问题，调整运行方式	E2E
9	注册后未自动跳转首页导致 E2E 失败，修正登录/注册路由跳转	前端路由
10	UCloud SSH 密码登录失败，停止/重置/启动并切换`ubuntu`用户完成连接	部署/SSH
11	远端服务器无 Docker，安装 Docker Engine 和 Compose plugin	部署/Docker
12	Docker Hub 拉取超时，配置镜像加速和后台构建	部署/网络
13	Debian apt 源下载极慢，优化 Dockerfile 去掉 apt 编译依赖	部署/构建
14	PyPI 访问失败，改用国内 pip 源；公网 80/3000 超时后配置 UCloud 防火墙	部署/网络