当前位置: 首页 > news >正文

resnet -> HC -> mHC

经典的 ResNet 范式

过去十年,深度学习包括 Transformer)的基石是残差连接。
其公式非常简单:

其中 xl是第 l 层的输入。
这种设计最核心的优势在于 Identity Mapping 属性,它保证了信号在深层网络中传播时不会无限衰减或爆炸,是深层模型能训练起来的关键。

挑战者:Hyper-Connections (HC)

之前,字节提了一种叫 Hyper-Connections (HC) 的设计,试图打破标准残差的限制。
HC 的核心思想是:把残差流变宽。
它将残差流的特征维度从 C扩展到 n×C(n 是扩展倍数),让层与层之间有更丰富的信息通道。
其公式变为:

这里引入了三个可学习的矩阵
Hpre: 从宽残差流聚合信息输入到层。
Hpost: 将层输出映射回宽残差流。
Hres: 这是最关键的,它负责在残差流内部混合信息。

HC 的问题

虽然 HC 增加了容量,但它破坏了 Identity Mapping。
当网络层数 L 变深时,信号经过多个 Hres的连乘,会导致数值爆炸或消失。
实验表明,如果不加约束,HC 在大规模训练中极不稳定,Loss 会突然飙升,Gradient Norm 也会震荡

核心方法:mHC (Manifold-Constrained Hyper-Connections)

DeepSeek 团队提出的 mHC,核心思路非常直观:既然 HC 不稳定是因为 Hres太自由了,那我们就把它限制在一个安全的流形上。

什么是安全的流形?

mHC 强制要求残差映射矩阵 Hres必须是一个 双随机矩阵。
即满足以下条件:

  • 所有元素非负 (Hres≥0)。
  • 每一行的和为 1。
  • 每一列的和为 1。
    数学上,这个集合构成了 Birkhoff 多面体。

双随机矩阵有两个极好的数学性质,完美契合深度学习的需求:

  • Norm Preservation:它的谱范数 ≤1,这意味着信号经过它处理后,能量不会被无限放大,从而避免了梯度爆炸。
    Compositional Closure:两个双随机矩阵相乘,结果依然是双随机矩阵。这意味着无论堆叠多少层,依然保持良好的性质,恢复了类似 Identity Mapping 的稳定性。

如何实现?(Sinkhorn-Knopp 算法)

在代码实现上,如何保证一个可学习的矩阵始终是双随机的?
作者使用了 Sinkhorn-Knopp 算法。
给定一个初始参数矩阵,先取指数保证非负,然后交替进行行归一化和列归一化:

DeepSeek 在实验中迭代了 20 次 (tmax=20),就能得到满足约束的 Hres。
这也是这篇论文最精彩的理论部分:
把信号传播变成了一种特征的凸组合,既保留了 HC 的多流交互能力,又锁死了稳定性。

图8:HC与mHC矩阵的可视化对比,可以看到HC的值非常大且杂乱,而mHC的值分布均匀且稳定

系统级优化:理论很美,但速度怎么

搞过 LLM 的都知道,Memory Wall 是最大的瓶颈。
HC 将残差流扩大了 n 倍(例如 n=4),这意味着显存访问量 (I/O) 激增。
如果不做优化,训练速度会慢到无法接受。这里,DeepSeek 展现了他们强大的工程能力。

  • 算子融合
    由于 n倍的宽度,读写数据量巨大。
    作者利用 TileLang 开发了定制的 CUDA Kernel:
    将 RMSNorm 和矩阵乘法融合。
    将前向传播中的多次扫描操作融合到一个 Kernel 中。
    将 Sinkhorn-Knopp 的迭代计算融合在一个 Kernel 内部完成,避免中间结果频繁读写显存。
  • 重计算策略
    为了节省显存,作者设计了分块重计算策略。 不是每一层都存激活值,而是每 Lr层存一次输入 xl0。反向传播时,重新计算中间的 mHC 投影算子。这大大降低了峰值显存占用。
  • DualPipe 中的通信重叠
    在大规模流水线并行中,mHC 带来的额外通信量会阻塞计算。
    作者改进了 DeepSeek-V3 使用的 DualPipe 调度策略:
    把 MLP 的计算放在高优先级流上。
    把 mHC 的重计算和 Attention 的计算与通信进行更加细粒度的重叠。
    结果: 在 n=4的情况下,相比标准模型,mHC 的训练时间仅增加了 6.7%

图4:mHC 在 DualPipe 中的通信与计算重叠调度示意图

http://www.jsqmd.com/news/289305/

相关文章:

  • 俄罗斯音乐留学申请机构推荐:致俄如何用8年积累与真实案例精准导航艺术之路
  • 面向高速、远距离传输应用的机器视觉数据接口(以Vieworks为例)
  • 2025年烫金机选购指南:信誉厂商深度解析,有实力的烫金机生产厂家博美印刷满足多元需求
  • 莫斯科谢东诺夫第一医科大学中介机构为什么选致俄:专业领航,护佑未来仁医之路
  • CUDA结构是什么
  • SQL 注入攻防全攻略:开发者必学的数据库安全防护技巧
  • 渗透测试必备工具进阶技巧:高效提升漏洞挖掘效率,一篇文章带你从零基础入门到精通!
  • CUDA的最新稳定版本是13.1
  • cuda 中__restrict__作用
  • d3
  • 修改归档模式
  • 2026山东最新数据资产评估机构top5推荐!潍坊等地专业数据资产评估公司权威榜单发布,资质技术双优助力价值评估.
  • 详细介绍:Docker:Docker image常用命令使用及实操
  • IntelliJ IDEA 2026.1 EAP 发布!拥抱 Java 26,Spring Boot 4 深度支持!
  • 2026年316L不锈钢板厂家推荐报告:第三方视角下的优质供应商评估及选择指南
  • 2025年非遗膏方厂家口碑排行:消费者信赖的品牌,阿胶糕/阿胶类产品/膏方类产品/阿胶/阿胶类/膏方/非遗膏方非遗膏方定制口碑推荐
  • 探寻2026年靠谱中空板印刷机制造商,这些品牌值得一看,行业内有实力的中空板印刷机生产商10年质保有保障
  • ST LSM6DSO IMU芯片介绍
  • 从月销17万案例拆解九尾狐AI的企业级培训架构设计与落地实践
  • 马可波罗 item_get - 获取商品详情接口对接全攻略:从入门到精通
  • 2026最新Anaconda超详细安装教程(附安装包)
  • 自动化测试:操作自动化测如何实现用例设计实例
  • iPhone 网络调试的过程,请求是否发出,是否经过系统代理,app 绕过代理获取数据
  • 接口自动化测试一点总结
  • Web安全 | EmpireCMS漏洞常见漏洞分析及复现
  • Chrome 浏览器+Postman做接口测试(全)
  • 【实操】AI 编程新体验:从 Antigravity 爬虫实战到自动配图生成博文 (本文由Antigravity自动生成)
  • 【建议收藏】35岁转行网络安全,行业缺口327万,附学习路线和资源
  • 完整教程:【计算机网络】TCP/IP模型核心层解析(网络/传输/应用层)
  • 随手写了个按钮悬停动画,简单但超有质感!