当前位置: 首页 > news >正文

GLM 5.2 单模型测评报告

智谱 GLM-5.2 发布:国产大模型迎来“王者归来”

测试工具:opencode。
测试任务:FlowTask 团队任务看板系统,从需求分析、开发、测试到 UCloud 云端部署。
测试环境:UCloud 云服务器、Ubuntu 镜像、公网 IP、UCloud 防火墙/安全组、Docker Compose、PostgreSQL。
评分口径:10 个评分项,每项 20 分,总分 200 分。
费用口径:用户提供的 UCloud 模型服务平台账单截图中“筛选合计 / 订单总额”。
评测团队:UCloud技术研究院
生成日期:2026-06-17。

一、结论摘要

GLM 5.2 本轮综合分为189/200,是当前轮次综合表现最高的模型。它的主要优势是0 次人工介入、需求文档完整、后端约束和权限落地较好、测试和云端部署链路完整,本地和云端 E2E 均通过。

需要注意的问题有 2 个,均为前端小 Bug:长文本标题溢出容器、首页缺少可见注册入口。另外,部署文档仍有root@IP口径,实际部署需要使用ubuntu用户;部署元数据中出现 SSH 密码字段,正式项目需要改成更严格的敏感信息管理方式。

指标数值
综合分189/200
排名本轮第 1
实际费用¥50.74
每 1 分成本¥0.27/分
Token 总数16.62M
每 1M Token 成本¥3.05
总耗时1h55m25s
需求阶段耗时2min30s
开发阶段耗时69min11s + 43min44s
对话消息总次数205
assistant 总消息数202
需求分析 assistant 消息数2
开发阶段 assistant 消息数200
人工介入次数0
人工验收问题数2
开发自修 Bug 数14

二、阶段评分

阶段满分得分备注
需求理解 RU2020Plan 文档完整覆盖实体、字段约束、权限、状态机、筛选和日历
功能设计 FD202012 个 API、E2E-0115、UT-0121 设计完整
架构设计 AD2018技术栈、DDL、分层、Docker、UCloud 架构完整;扣 SSH 用户口径仍写root@IP
前端实现 FE2017看板、日历、筛选、邀请、权限入口基本完整;扣首页缺少注册入口、删除动画细节和长文本标题溢出
后端实现 BE2020认证、权限、状态机、字段约束、筛选、种子数据完整
功能测试 TS2019后端 23 个单测通过,本地和云端 E2E 15/15 通过;扣少量 E2E 断言偏浅
问题处理 PD2020开发、测试、部署问题均由模型独立定位并闭环,无人工介入
代码质量检查 CR2018分层清晰、接口一致;扣 README/Plan 的 SSH 用户口径和部署元数据含敏感字段
UCloud 部署 DP2020UCloud 资源创建、Docker 部署、防火墙、公网验收、云端 E2E 均完成
质量分2017人工验收 2 个小 Bug;扣长文本标题溢出、首页缺少注册入口和轻微文档/安全治理风险
综合分200189本轮综合表现最高

三、扣分明细

小项满分得分扣分扣分依据
AD-04 部署架构422Plan 和 README 多处写ssh root@<IP>;实际部署中需要改用ubuntu才完成 SSH。
FE-01 基础页面与导航321首页页面只有登录按钮,无法直接切换到注册页面;实际/register页面存在且可正常注册。
FE-06 动画与交互反馈211前端有 FAB、弹窗、Toast、任务进入动画,但删除流程主要是确认弹窗,删除动画闭环证据不足。
FE-08 响应式适配101人工验收发现长文本标题溢出容器,文本保护不足。
TS-02 E2E 覆盖和通过率431E2E 本地和云端均 15/15 通过,但部分用例只断言页面可见或列存在,成员筛选、状态筛选、响应式断言偏浅。
CR-02 安全与错误处理752deploy-meta.json记录了 SSH 密码字段,作为项目产物存在敏感信息治理风险。

四、费用、耗时和 Token

指标数值
实际费用¥50.74
综合分189/200
每 1 分成本¥0.27/分
Token 总数16.62M
输入 Token5.24M
输出 Token0.08M
推理 Token0.01M
缓存读取 Token11.30M
每 1M Token 成本¥3.05
总耗时1h55m25s
需求阶段耗时2min30s
开发阶段耗时69min11s + 43min44s

五、Session 统计

指标数值
Session IDses_12bc851d2ffeANXdiM3RXDxRLz
Session 标题GLM5-2 - FT - 团队任务看板系统技术方案设计
代码目录/Users/imnight/Documents/flowtask-test/glm-5.2/FlowTask
AI 输出需求文档行数698
AI 输出需求文档非空行数592
输入需求总行数330
输入需求非空行数279
session 总消息数205
assistant 总消息数202
需求分析 assistant 消息数2
开发阶段 assistant 消息数200

六、部署信息

项目内容
部署访问地址http://IP
后端 health 地址http://IP:3000/health
部署方式Docker Compose 部署 frontend、backend、PostgreSQL
重启恢复Docker Compose 服务配置restart: unless-stopped

公网复查记录:

  • http://IP/返回 200。
  • http://IP:3000/health返回{"success":true,"data":{"status":"ok"}}
  • 测试账号登录成功,账号信息已脱敏。
  • session 交付报告记录云端 E2E:15 passed in 33s。

七、需求和实现依据

需求理解方面,GLM 5.2 的 Plan 文档明确覆盖核心实体、字段类型、字段约束、权限模型、状态机、筛选和日历能力。

关键约束覆盖情况:

约束项是否覆盖
role 枚举覆盖
priority 枚举覆盖
status 枚举覆盖
用户名 3-20 字符覆盖
密码不少于 6 位覆盖
标题 1-100 字符覆盖
描述不超过 500 字符覆盖

代码实现依据:

  • backend/app/schema_sql.py落地chk_usernamechk_rolechk_prioritychk_statuschk_titlechk_desc
  • backend/app/schemas/user.pybackend/app/schemas/task.pybackend/app/schemas/member.py落地 Pydantic 字段校验。
  • backend/app/services/task_service.py落地状态机校验,非法流转返回 400。
  • backend/app/deps/permission.py落地 readonly 写操作 403。

八、人工验收问题

序号问题影响范围严重程度
1页面标题太长时溢出容器前端显示小 Bug
2首页只有登录按钮,缺少可见注册入口;实际/register页面存在且可正常注册前端入口/导航小 Bug

判断:这两个问题不影响后端核心能力、部署能力和主流程验收,但会影响正式交付时的用户体验。正式采用前应安排工程师修复并重新验收前端页面。

九、开发自修 Bug

开发自修 Bug 数只统计模型在正式 FT session 中自己遇到失败、报错、测试不通过或部署异常后,自己定位、修改并复测的闭环事件。同一根因多次重试只算 1 个;人工验收发现的问题不计入这里。

序号自修 Bug / 异常归类
1前端 import 路径错误导致构建失败,修正 auth 页面 import前端构建
2import.meta.env/ Vite 类型问题,补充类型声明前端构建
3PostgreSQL 旧 volume 导致密码认证失败,清理并改唯一 volume 名称数据库/Docker
4/api/users无 token 返回 500,重构 auth dependency 后返回 401后端鉴权
5单测中 register 后错误读取 token,改为注册后登录获取 token测试
6pytest marker 配置缺失/不稳,补充 pytest 配置测试配置
7E2E 相对导入失败,调整导入方式E2E
8E2E rootdir/timeout 参数问题,调整运行方式E2E
9注册后未自动跳转首页导致 E2E 失败,修正登录/注册路由跳转前端路由
10UCloud SSH 密码登录失败,停止/重置/启动并切换ubuntu用户完成连接部署/SSH
11远端服务器无 Docker,安装 Docker Engine 和 Compose plugin部署/Docker
12Docker Hub 拉取超时,配置镜像加速和后台构建部署/网络
13Debian apt 源下载极慢,优化 Dockerfile 去掉 apt 编译依赖部署/构建
14PyPI 访问失败,改用国内 pip 源;公网 80/3000 超时后配置 UCloud 防火墙部署/网络

十、最终判断

GLM 5.2 本轮是最值得优先考虑的模型:分数最高、费用低、0 人工介入、部署完整,整体交付质量明显高于 GLM 5.1,也比高价模型更有成本优势。

但它仍不是完全免审核交付。正式项目使用前,建议工程师重点检查三件事:长文本显示、注册入口、敏感部署信息。这三项处理完后,GLM 5.2 可以作为本轮测评里的首选方案。

http://www.jsqmd.com/news/1035480/

相关文章:

  • 遗传算法工业落地核心:实数编码、自适应参数与收敛诊断
  • 2026年武汉灭鼠灭蚊机构选择指南:专业服务解决行业痛点 - 优质品牌推荐商
  • 2026年武汉特色礼品深度测评:如何为你的商务馈赠匹配最佳方案? - 资讯快报
  • Agent之间怎么通信?我们把AI Agent拉进了群聊
  • 2026年哪里有正规的动物实验公司 - 品牌排行榜
  • 模型上线不是终点:生产级机器学习的系统性生存法则
  • 思茅必吃餐厅推荐;南屏镇必吃餐厅 - 资讯快报
  • 南虹舒适家:中央空调/地暖/约克/水机/五恒服务商,深耕四川成都等地,舒适家居优选 - 十大品牌榜
  • Spring中Controller、Service、Component、Configuration完整使用教学
  • AI越来越强,人应该研究些什么?人未来努力研究的方向
  • 郑州全域上门黄金回收合扬,预约即上门,当场现款结算 - 开心测评
  • 电脑在崇阳租电脑的体验:比想象中方便多了✅
  • 大龄考公用粉笔行吗?
  • AI编程 智普GLM从0-1开发一个小程序
  • 乌兰察布之夜天骄盛会游玩推荐 - 行业深度观察C
  • 开源AI安全工具实战:NeMo Guardrails、PyRIT与灰区治理
  • 2026无锡填志愿机构哪家好权威推荐:本土高性价比品牌深度测评 - 资讯快报
  • ncmdumpGUI深度解析:C实现的网易云音乐NCM文件解密终极方案
  • 国内医院导医服务机构推荐 | 聚焦细心负责的专业服务 - 互联网科技品牌测评
  • 温州外箱厂家推荐哪家 - 品牌推广大师
  • 成都翡翠回收全攻略:半个月功课整理,5家对比实测 - 奢品小当家
  • 微PE启动U盘无法打开的故障排查与修复全攻略
  • 不用 NVIDIA 也能快,ROCm 7.x 下 vLLM 性能基准测试报告
  • 2026亲测:义乌靠谱的代办执照中介推荐,创业注册公司这样选不踩坑 - 企业品牌优选测评官
  • 闲置别贱卖,2026常州回收德尔沃包包省心高价回血攻略 - 名奢变现站
  • 东莞诚信经营阳极泥钯碳钯铂催化剂回收店铺 - 品牌2026
  • 2026年 净化空调厂家实力榜单:洁净空调/净化中央空调系统,核心技术+高效节能解决方案深度推荐! - 品牌发掘
  • 5步诊断法:快速解决OBS Studio启动失败问题终极指南
  • 2026年宁波App开发行业分析:三大优选公司(本凡科技/聚翔网络/本凡码农)技术优势与选型指南
  • TradingAgents:AI 量化交易新范式