当前位置: 首页 > news >正文

DeepSeek新工作mHC:一个优化版的残差连接结构

前天,DeepSeek发布了一篇新的工作[1]。

标题是:mHC: Manifold-Constrained Hyper-Connections
翻译一下:mHC:流形约束的超连接

这篇工作是一个阶段性的研究成果,而不是模型更迭。

原文的数学性很强,本文主要从更容易理解的宏观层面,看看它在做什么。

回顾残差结构

这篇工作用一张图就能概括。

下图a是早已广泛应用的残差结构,图b是24年新提出的超链接结构(HC),图c则是这篇工作提出的mHC结构。

残差结构主要是应对解决深度神经网络的训练不稳定的问题。

因为当神经网络层数增加,每一层都有可能丢一部分信息,层出多了就容易出现梯度消失或梯度爆炸。

ResNet提出的残差结构是在旁路多加了一条 shortcut,即

输出 = x + F(x)

这样处理,就把网络从学一个复杂映射变成学一个接近 0 的修正项。

它可以保证网络每一层在最差情况下什么都不学,参数也和上一层保持一样,不会变坏。

这样网络就可以叠得更加深。

超链接结构(HC)

虽然普通残差很有效,但它会导致的一个现象是:“这一层的特征,只和上一层的同一条特征有关。”

因为每一层都是对应通道的相加,通道之间没有相互交流。

为了更充分地增加信息利用:HC 把 “一条残差流” 变成 “n 条并行残差流”,并允许它们互相交换信息。

这样处理,大模型会更“灵活”,特征组合方式更多样。

一句话总结:残差保证“不会退步”,HC 追求“用得更全”。

流形约束的超连接结构(mHC)

虽然HC的思想很好,但存在的一个局限性就是模型训练不稳定。

因为残差通道的组合是模型自己通过学习得到的,它破坏了残差连接固有的恒等映射特性,导致梯度消失/梯度爆炸会重新出现。并且,扩宽的残差流带来了显著的内存访问开销。

mHC的思路是将HC的残差连接空间投影到一个特定的流形(manifold)上,以恢复恒等映射特性,保障训练稳定。

同时,mHC还在系统层面,采用了内核融合、选择性重计算、通信重叠等方式减小内存访问开销。

mHC在27B的模型上进行了实验,发现训练的稳定性得到了提升。

并且,模型的性能整体也得到提升。

总之,这是一项偏基建类型的工作,作者团队也只是拿小参数量模型进行了验证。

估计这一项改进会应用到下一代的模型中,期待他们在过年前放出大招。

参考

[1] https://arxiv.org/pdf/2512.24880

http://www.jsqmd.com/news/189331/

相关文章:

  • Agentic AI技术挑战的冲击,提示工程架构师如何稳住阵脚?
  • IQuest-Coder-V1:国产大模型出现了新玩家
  • Windows 11 LTSC 微软商店一键安装完整指南
  • GitHub加速终极指南:3分钟解决国内开发者访问难题
  • 深度学习计算机毕设之基于ResNet50的植物病害识别研究与系统应用实现
  • 5大核心功能揭秘:Translumo如何成为跨语言沟通的终极利器
  • HunyuanOCR能否用于车牌识别?测试结果显示高准确率
  • c++函数可以返回局部变量的值,但不可以返回局部变量的地址或引用
  • Nrfr终极指南:免Root实现SIM卡国家码精准配置与运营商限制突破
  • 深度学习毕设项目:基于ResNet50的植物病害识别研究与系统应用实现
  • ComfyUI-BrushNet模型配置实战:从零开始到高效使用
  • DL之Titans_MIRAS:在执行时用“惊讶度”驱动记忆写入的长期记忆架构与统一理论框架 —— 从超越 MSE 的 MIRAS 设计空间(包含 YAAD、MONETA、MEMORA 三种注意力自由
  • 出国必备!3分钟搞定手机全球通:Nrfr免Root工具真实体验
  • 虚拟机测试网速的方法
  • AMD显卡也能运行CUDA程序?终极ZLUDA兼容性配置指南
  • VisualGGPK2完全指南:流放之路游戏资源编辑终极解决方案
  • Surya OCR横向评测:数学公式与表格识别能力对比
  • 3个关键步骤让Windows Android子系统继续服务到2027年
  • Onekey Steam清单下载器:免费高效的终极解决方案
  • YimMenu完全配置指南:解锁GTA5终极游戏体验的完整方案
  • 免费终极Windows 10性能优化神器
  • LegalDoc司法文书解析:判决书中当事人信息自动提取
  • 如何快速实现电子书元数据自动化管理:Calibre豆瓣插件完整指南
  • StreamFX插件:免费打造电影级直播效果的完整指南
  • E-commerce商品详情页识别:淘宝京东图片转文字方案
  • 生肖邮票设计大赛:参赛者使用lora-scripts进行初稿创作
  • 【毕业设计】基于ResNet50的植物病害识别研究与系统应用实现
  • 鸣潮120帧极致体验:从卡顿到丝滑的完整指南
  • IDM试用期恢复终极指南:如何继续使用这款下载工具
  • AI伦理讨论焦点:lora-scripts让深度伪造技术平民化了吗?