当前位置: 首页 > news >正文

GLM-5.2 只差 Claude 0.7%,国产开源终入第一梯队

 

智谱在6月13日17:21开放、6月17日正式开源GLM-5.2。开放时间点精准得像在回应谁——就在6月12日,美国商务部要求Anthropic在48小时内切断全球非美籍用户对Claude Fable 5和Mythos 5的访问权限。

三组核心数据:

Code Arena(全球百万用户盲测的编程评估):1595分,全球可用模型第一,仅次于已被封禁的Fable 5。

FrontierSWE(20小时级复杂工程任务):GLM-5.2得74.4,Claude Opus 4.8得75.1,差距0.7个百分点,同时超过GPT-5.5的72.6。

Terminal-Bench 2.1(终端操作任务):GLM-5.2得81.0,较上一代GLM-5.1的63.5提升17.5分。

智东西实测作者用GLM-5.2花了4小时从零做了一款《文明》风格策略游戏——几乎用满百万上下文、修了16个bug。
"这是国内第一款在我工作流上达到Opus级的模型。"

一、1M上下文从"宣传词"变成"工程能力"

过去两年几乎所有大模型都宣称支持长上下文,但"标称长度"和"真实可用长度"是两回事。GLM-5.2的关键不是"1M"这个数字,而是它真的能用。

架构上做了系统优化:每4层transformer共享一个轻量索引器(IndexShare),top-k索引复用到后续3层,省掉3/4的索引计算。这不是推理时加的补丁——从训练中期就在用这套机制。结果:1M上下文下,单位token计算量仅为标准注意力机制的2.9倍,不是线性增长。

上一代GLM-5.1的上下文约200K,超过即出现信息丢失。5.2把天花板抬高了五倍

二、效率提升的数据很硬

同样是审查1700行Python代码:

模型耗时输出 token
GLM-5.1124.8 秒3436
GLM-5.247.7 秒1415

时间缩短62%,输出精简59%,准确率反而更高。这不是"跑分好看",是直接改变开发者愿不愿意用它做代码审查的体验差异——以前等两分钟,现在不到一分钟,且不再啰嗦。

三、诚实的能力边界

必须说清楚的一点:在SWE-Marathon(编译器、内核优化等需要数天的超长周期工程任务)上,GLM-5.2得13.0,而Opus 4.8是26.0——差距是一倍。

这说明什么?主流编程基准(功能开发、bug修复、代码审查)上,开源模型已经追上来了。但当任务进入"跨多天、需要深度跨文件推理"的极限场景,闭源前沿模型仍有明显代差。

这不是GLM-5.2的瑕疵,是40B激活参数在单步深度推理上的天然天花板——它用宽度换效率,代价是深度推理的极限场景打不过200B级稠密模型。日常工程任务可以放进主技术栈;极限长周期任务仍需要Opus兜底。

四、"开源国模+国产算力"组合,给了企业第四个决策维度

过去选AI模型看三件事:能力、成本、生态。Anthropic被禁事件后多了第四条——会不会突然断供。

GLM-5.2用MIT协议开源(可任意修改、商用、无地域限制),Day 0完成华为昇腾、平头哥、寒武纪、昆仑芯等8家国产芯片适配。这套组合意味着:代码不受出口管制、算力不依赖海外供应链、部署不受地域限制。

对任何把AI当基础设施的企业,这是一个"不会被远程关闭"的确定选项。智谱股票当天涨超4%,5日内涨幅44%,较IPO发行价涨超1200%——市场用钱在投票。

爻枢视角

GLM-5.2的1M真实上下文加开源可私有化部署,对做企业级AI服务的团队是个明确信号:国产开源模型已经跨过"能不能用"的阶段,进入"好不好用"的竞争区间。技术选型的逻辑会从"追最强"转向"追最稳"。

GLM-5.2不是又一个国产模型更新——它是国产开源AI第一次让全球开发者必须在"最强"和"最稳"之间认真权衡。0.7%的差距,已经小到可以忽略;那一倍的代差,清晰得让人放心。

http://www.jsqmd.com/news/1036065/

相关文章:

  • 学习 nana c++ 库 (一)
  • Python开发工具指南:提升你的开发效率
  • 快速制作投票活动链接的最新教程,必备干货!
  • TLM2.0
  • 2026多品牌大电流微欧计实测:青岛普锐思高口碑生产商测评 - 品牌推荐大师
  • 2026武汉真人发假发定制推荐:武汉三星速美假发超市实力全盘点 - 行业深度观察C
  • 基于MC68HC908MR32的永磁同步电机正弦波驱动与死区补偿技术详解
  • NXP T4240RDB参考设计板硬件架构解析与设计实践
  • 百度网盘秒传解决方案:高效文件管理与分享终极指南
  • 外贸快车怎么样?实力测评解析 - 栗子测评
  • 如何三步快速解密Navicat数据库连接密码的完整免费解决方案
  • 终极跨平台Access数据库处理方案:MDB Tools实战指南
  • Motorola Suite56 ADS调试器:OnCE与MFAX技术深度解析与实战指南
  • 5分钟搞定Windows和Office激活:KMS智能脚本终极指南
  • 嵌入式功能安全实战:基于NXP IEC60730库的GPIO短路与Flash CRC校验
  • 2026年6月18日海安车灯维修本地走访记:裂痕位置、进水情况和灯壳状态先核对哪几项 - Ayu8888
  • B站视频解析技术深度解析:多协议支持与智能缓存实现
  • 杰理之USB SPK位宽设置24bit,插PC会死机【篇】
  • 嵌入式异构多核硬件设计实战:TWR-VF65GS10开发板深度解析
  • Mythos能力跃迁:系统级推理与具身叙事的工程落地
  • 3个必装理由:为什么你需要PowerToys中文版来提升Windows效率?
  • 3步掌握OpenSlide:从零开始高效处理虚拟切片图像
  • 2026拉力机试验机品牌推荐榜:技术派vs性价比派,你选哪一派? - 品牌推荐大师1
  • 2026年采购合同风险意识不足,咨询众智商学院CPPM前应该先看哪些条款和案例 - 众智商学院官方
  • 杭州思亿欧智能体科技有限公司靠谱么?公司综合实力深度解析 - 栗子测评
  • 考软考中项报培训班一般多少钱?哪家性价比高
  • Poppins字体终极指南:如何高效运用这款现代几何无衬线字体提升你的设计质感
  • 【2027最新】基于SpringBoot+Vue的汽车维修预约服务系统管理系统源码+MyBatis+MySQL
  • 计算机Java毕设实战-基于 Spring Boot 的二手房交易信息管理系统的设计与实现 基于 Spring Boot 的房屋买卖供需对接系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • zip slip目录遍历加n1例题