当前位置: 首页 > news >正文

GLM-5架构曝光,智谱股价两天暴涨60%:采用DeepSeek同款稀疏注意力!

来源:量子位

不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。

GitHub代码确认,新一代架构细节曝光。

GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

与此同时,OpenRouter平台上突然出现的神秘匿名模型「Pony Alpha」,编程和推理能力极为强劲,被社区91%以上的用户判断为GLM-5测试版。

受这些消息影响,智谱AI港股两日暴涨60%。

开源代码泄露参数架构

GLM-5的架构信息并非来自智谱官方,而是被开源社区从代码提交中“挖”出来的。

在vLLM推理框架的PR中,开发者发现GLM-5的实现逻辑被直接映射到了DeepSeek-V3的组件上。

GLM-5继承的第一项核心技术是DeepSeek稀疏注意力(DeepSeek Sparse Attention,DSA)

DSA通过两阶段流程做到长文本处理效率大幅提升,输出质量几乎不受影响。

首先由Lightning Indexer轻量级组件快速扫描所有历史token并打分,评估它们与当前query token的相关性;然后只挑选得分最高的Top-k个token进行完整的注意力计算,其余全部跳过。

第二项技术是多Token预测(Multi-Token Prediction,MTP),用于提升模型的生成效率。

从代码中推断出的架构参数看,GLM-5包含78层隐藏层,采用MoE(混合专家)架构,共256个专家,每次推理激活8个,激活参数约44B,稀疏度5.9%,与DeepSeek-V3.2的5.4%基本持平。

上下文窗口支持最高202K token。

有开发者指出,复用DeepSeek架构意味着GLM-5可以直接受益于vLLM、SGLang等推理框架已有的优化,部署门槛会更低。

但也有人提出疑问:DeepSeek-V3架构以纯文本为主,GLM-5首发版本是否会因此缺失多模态能力?

匿名测试与春节档大混战

2月初,OpenRouter平台上新匿名免费模型,代号「Pony Alpha」,支持200K上下文窗口。

模型一上线就引起了开发者社区的广泛关注,它的编程能力非常突出,能根据单条提示直接生成完整的功能性应用程序,在复杂推理和Agent工作流上同样表现出色。

“这到底是谁家的模型”迅速成为社区热议话题。

指向GLM-5的证据链覆盖了多个维度:

时间上,「Pony Alpha」出现的节点与智谱首席科学家唐杰多次暗示的GLM-5发布窗口完全吻合。

有开发者测试发现该模型对特定token的反应和GLM系列一致。

风格上,它的输出排版习惯也与GLM系列高度一致。

GLM-5的发布窗口,恰好撞上了一个异常拥挤的档期。

唐杰在内部信中已明确预告GLM-5即将发布,多方信息指向2026年2月中旬,即春节前后。

而在同一时间段,DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息将发布更新。

2026年的“春节档”,AI比电影那边还热闹。

参考链接:
[1]https://github.com/vllm-project/vllm/pull/34124
[2]https://x.com/chetaslua/status/2020832197771714943

马年大吉,恭祝新春快乐

分享

收藏

点赞

在看

http://www.jsqmd.com/news/368653/

相关文章:

  • 2026年江苏路沿石供应商综合评估与选择指南 - 2026年企业推荐榜
  • 2026视角:无局放试验变压器主流品牌综合评估与选型指南 - 2026年企业推荐榜
  • 2026年自动包装秤厂家推荐:自动称重包装一体机、自动称重配料系统、自动装袋机、自动配料生产线选择指南 - 优质品牌商家
  • 美国电车电量突然归零,撕开电车寿命遮羞布,寿命远比预期短
  • 2026年五金冷挤压厂家最新推荐:冷挤压工艺/冷挤压成型/冷挤压零件供应商/碳钢冷挤压/精密冷挤压/选择指南 - 优质品牌商家
  • 2026年武汉名表回收服务团队选择全攻略 - 2026年企业推荐榜
  • iPhone17大热,网传有国产手机品牌的旗舰手机最高跌超三成
  • 都说日本车没有未来时,突然咸鱼翻生,国产电车却在暴跌
  • 信达生物与礼来制药达成全球战略合作
  • 2026年膨胀珍珠岩厂家最新推荐:珍珠岩助滤剂滤料/珍珠岩滤料/珠光砂/闭孔珍珠岩/防火涂料用珍珠岩/选择指南 - 优质品牌商家
  • CANN ge 图引擎的 IR 表示与硬件指令映射机制
  • 2026年浇铸尼龙棒厂家最新推荐:玻纤mc尼龙浇铸棒、空心尼龙棒、耐磨尼龙棒、非标定制尼龙棒、MC901尼龙棒选择指南 - 优质品牌商家
  • 应用安全 --- 安卓加固 之 函数名剥离
  • 2026年仿木纹冰火板厂家最新推荐:米白色冰火板/纯色冰火板/防火冰火板/阻燃冰火板/8mm冰火板/选择指南 - 优质品牌商家
  • 2026年SOP系统厂家权威推荐榜:SOP看板系统/SOP软件/无线静电监控/智能静电监控/电子化SOP系统/选择指南 - 优质品牌商家
  • 应用安全 --- 安卓加固 之 设备指纹
  • 应用安全 --- 安卓安全 之 DEX壳
  • 2026年评价高的ESOP系统公司推荐:静电监控装置、静电监控设备、高精度静电监控、ESD静电接地监控选择指南 - 优质品牌商家
  • 2026年评价高的SOP电子作业系统公司推荐:SOP电子显示系统、SOP看板系统、SOP软件、作业指导书看板选择指南 - 优质品牌商家
  • 九元伦理原子:自指认知框架下的伦理升维与AGI内生安全范式
  • 2026成都酒店设备旧货回收服务商推荐榜:茶楼旧货回收市场、酒店旧货回收市场、酒店设备旧货回收市场选择指南 - 优质品牌商家
  • 2026年播音主持艺考培训厂家最新推荐:中日双语播音培训、中朝双语播音培训、中英双语播音培训、中西双语播音培训选择指南 - 优质品牌商家
  • CANN hixl 的异步通信上下文管理与资源隔离机制
  • CANN hixl 对稀疏梯度传输的压缩与聚合支持原理
  • CANN hixl 高级索引通信原语的拓扑感知调度机制
  • CANN hixl 在单机多卡场景下的 PCIe 带宽优化策略
  • CANN hixl 与集合通信库的接口抽象与协同设计
  • 【 Java 性能调优 | 问题定位与测试验证 】
  • 2026年焊烟净化器设备厂家权威推荐榜:焊烟净化器除尘器/自循环焊烟净化器/集中式焊烟净化器/高负压焊烟净化器/选择指南 - 优质品牌商家
  • 2026年评价高的老人上楼简易电梯公司推荐:别墅家用座椅式电梯/北京座椅电梯/家用座椅式电梯/座椅升降电梯/选择指南 - 优质品牌商家