当前位置: 首页 > news >正文

26年元旦DeepSeek梁文峰署名发的mHC讲了什么

mHC(流形约束超连接)是 DeepSeek 团队在 2025 年底发布的一种神经网络架构创新,核心是给超连接(HC)加 “流形约束”,既保留 HC 拓宽残差流的性能优势,又解决其训练不稳定、显存开销大的问题,让大模型训练更稳、更省资源。相对于字节之前提出的HC,它主要改造的是残差的架构(这里是我早些年对resnet的解读,可以回看下),从工程和算法上左了优化,在不显著增加训练时间的前提下,在LLM经典的benchmark上测试结果显著提升。

这一在元旦的发布,又让AI从业者在休假的几天寝食难安。

以下从核心背景、创新思路、实现方法、效果与意义四方面粗浅的解读:


一、核心背景:超连接的 “甜蜜烦恼”

  1. 残差连接(Residual Connection):就像模型里的 “单车道高速路”,让数据信号能 “抄近道” 从浅层传到深层,避免深层训练时信号消失,是大模型能训练到千亿参数的基础。
  2. 超连接(HC):把 “单车道” 扩成 “多车道”,用可学习矩阵混合多条残差流,提升模型表达能力,但无约束的连接矩阵会破坏 “恒等映射”(信号原样传递的兜底机制),导致信号放大 / 衰减(最高可达 3000 倍)、梯度异常,训练易崩溃;同时多流并行让显存开销大增,反向传播要存更多中间激活,成了大规模训练的瓶颈。

二、mHC 的创新思路:给连接矩阵加 “紧箍咒”

mHC 的核心是流形约束—— 把 HC 的连接矩阵 “关” 进双随机矩阵(Birkhoff 多胞形)构成的流形空间,这个 “紧箍咒” 有三个关键规则:

  • 矩阵元素非负;
  • 每行、每列元素之和都等于 1(归一化);
  • 双随机矩阵相乘仍为双随机矩阵(封闭性)。

这样做的好处很直观:

  • 连接矩阵成了 “加权混合器” 而非 “放大器”,信号只是在不同残差流间重新分配权重,不会系统性放大(实验显示信号放大倍数控制在 1.6 倍内),特征均值也能保持,从根源解决信号爆炸 / 消失问题。
  • 恢复恒等映射特性,哪怕模型很深,信号传播也稳定,梯度不会失控。
  • 封闭性让多层复合映射仍保稳定,训练时的数值行为更可控。

三、实现方法:数学约束 + 工程优化

  1. 流形投影:Sinkhorn-Knopp 算法

    • 先让模型学习普通实值连接矩阵,再用 Sinkhorn-Knopp 算法做熵投影,把矩阵 “压” 进双随机流形,这个操作可微,不影响训练时的梯度传递。
    • 相当于给连接矩阵做 “标准化”,确保它符合双随机规则,同时保留模型的学习能力。
  2. 工程优化降开销

    • 内核融合:把 RMSNorm、矩阵乘法等算子打包执行,减少中间数据读写,提升计算效率。
    • 选择性重计算:反向传播时丢弃非关键中间激活,需要时再重新计算,显存占用减少 70% 以上。
    • DualPipe 调度:优化通信与计算的并行,进一步提升训练吞吐量。

四、效果与意义

  1. 训练稳定性:信号放大倍数严格控制在 1.6 倍内,彻底摆脱传统 HC 的稳定性困扰,Loss 曲线更平稳,梯度异常大幅减少。
  2. 效率与性能:扩展率 n=4(4 条残差流)时,仅增加 6.7% 训练时间,却能带来明显性能提升;同时显存开销显著降低,让更大规模的模型训练成为可能。
  3. 长远意义:为大模型基础架构提供新方向,既兼容现有 HC 的优势,又解决其核心痛点,可用于 Transformer、ResNet 等主流网络,助力新一代基础模型的设计与训练,也为资源受限场景下的大模型部署提供新思路。

简单地说

  • 传统残差连接:单车道高速,信号顺畅但运力有限;
  • 超连接(HC):多车道高速,运力提升但无交通灯,易堵车、撞车(信号失控);
  • mHC:给多车道装智能调度系统(双随机流形约束),车流(信号)按规则分流,不拥堵、不超速,运力与安全兼得。

【关注我,后续我将给出手动实现的mHC代码】

http://www.jsqmd.com/news/194682/

相关文章:

  • 雷家林(レイ・ジアリン)詩歌集録 その二
  • 2026辣椒油品牌top5推荐榜,优质工厂及供应商深度解析/选择指南 - 全局中转站
  • docker后台运行模式和交互模式学习
  • 2026最新延吉烤肉餐厅top5推荐!延吉本地延边大学等地加盟餐饮品牌深度解析及选择指南 - 全局中转站
  • 雷家林(レイ・ジアリン)詩歌集録 その三
  • 电脑配置流程(WebGL项目)
  • 对初学者的JavaScript八种类型实用小技巧
  • springboot基于电商大数据的商城商品推荐系统vue
  • 深度测评专科生必用的8款AI论文工具
  • 《Tableau大数据实战技巧进阶:从熟练到精通》
  • 江苏专业的港澳台联考公司哪个好
  • 深入解析:Android16音频之获取Track状态AudioTrack.getState:用法实例(一百二十九)
  • springboot学生学分学业预警管理系统vue
  • 性价比高的循环水处理口碑好的源头厂家
  • 2026自考必备8个降AI率工具测评榜单
  • java基础-IO流(序列化流和反序列流)
  • springboot家校互动系统vue
  • 靠谱的康有利到家理疗小程序样本
  • springboot教育培训机构教务信息管理系统vue
  • java基础-IO流(打印流)
  • 案例-20260101分区数据更新失败
  • 2026打工人必看!5款在线甘特图深度横评,这款开源神器直接封神[特殊字符]
  • 编程语言30年:从Java到Rust的进化史 - 指南
  • 基于Python+Web的喀什地区景点推荐系统的设计与实现(源码+lw+部署文档+讲解等)
  • QOJ#6504. Flowers Land 2
  • MCP Server 开发实战测试 - 自动发布
  • springboot卷烟物价管理系统vue
  • MCP Server 开发实战测试 - 自动发布我发错了
  • 绝了,一款神仙工具,值得收藏
  • 基于Python+Django的在线考试与评估系统设计与实现(源码+lw+部署文档+讲解等)