当前位置: 首页 > news >正文

【DeepSeek拥抱开源】通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度

1. 引言

本代码库包含论文《通过可扩展查找实现条件记忆:大语言模型稀疏性的新维度》的官方实现。

摘要:虽然专家混合模型(MoE)通过条件计算扩展容量,但Transformer架构缺乏原生知识查找机制。为此,我们探索将条件记忆作为补充性稀疏维度,通过Engram模块实现——该模块将经典N NN-gram嵌入现代化改造为支持O ( 1 ) \mathcal{O}(1)O(1)复杂度查找。

核心贡献:

  • 稀疏性分配:提出神经计算(MoE)与静态记忆(Engram)的权衡框架,发现指导最优容量分配的U型扩展规律
  • 实证验证:在严格等参数量与等计算量约束下,Engram-27B模型在知识、推理、代码和数学领域持续超越MoE基线
  • 机制分析:研究表明Engram能减轻浅层网络静态模式重建负担,可能为复杂推理保留有效深度
  • 系统效率:模块采用确定性寻址机制,支持将海量嵌入表卸载到主机内存,推理开销极低

2. 架构设计

Engram模块通过检索静态N NN-gram记忆并与动态隐状态融合来增强主干网络。架构如下图所示(提供drawio源文件):

3. 评估

Scaling Law


大规模预训练


长上下文训练

4. 印迹案例研究

5. 快速开始

我们推荐使用 Python 3.8+ 和 PyTorch 环境。

pipinstalltorch numpy transformers sympy

我们提供了一个独立实现来展示 Engram 模块的核心逻辑:

python engram_demo_v1.py

⚠️注意:提供的代码是演示版本,旨在说明数据流逻辑。其中模拟了标准组件(如 Attention/MoE/mHC)以便聚焦于 Engram 模块功能。

6. 许可协议

Engram 模型的使用需遵守模型许可协议。

代码

https://github.com/deepseek-ai/Engram/blob/main/README.md

http://www.jsqmd.com/news/241035/

相关文章:

  • IAR版本兼容性说明:不同芯片适配要点
  • I2C总线入门指南:核心要点一文说清
  • 手把手LVGL教程:在STM32上实现LCD显示的全过程
  • 树莓派pico ADC模块应用:实战案例分享
  • MySQL,InnoDB究竟如何巧妙实现,4种事务的隔离级别(第9讲,超硬核)
  • Spring Boot 自动配置原理与自定义 Starter 开发实战
  • STM32CubeMX配置文件管理:项目迁移完整指南
  • 工控HMI面板电路图详解:系统学习布局逻辑
  • 嵌入式中SSD1306的I2C通信优化:操作指南
  • 全场景防护下的国内文档安全厂商:技术演进与竞争格局解析
  • Keil MDK中实现CAN总线控制的深度剖析
  • 2026中国AI营销公司实力榜:不懂生成式营销如何破局?深度解析领跑者之道
  • 基于STM32的蜂鸣器电路应用:PWM调音实战案例
  • AI营销不懂就落后!原圈科技领跑2026实力榜,解密ROI提升300%
  • 项目应用:工业控制板原理图设计全过程解析
  • RS485和RS232通信协议驱动芯片选型实战指南
  • 面向本科生、研究生的AI冬令营来了!
  • Python 机器人大脑构建指南:路径规划与决策算法深度解析
  • VOFA+自定义面板设计手把手教程
  • 如何在大数据领域做好精细化数据清洗
  • python opencv 调用 海康威视工业相机(又全又细又简洁)
  • Arduino安装驱动手动加载步骤:项目应用实例
  • 一文说清LTspice电路仿真时域分析核心要点
  • 完整指南:AUTOSAR架构图配置工具链使用
  • STM32中HID协议通信的完整指南与配置步骤
  • xTaskCreate与外设驱动集成:从零实现
  • Windows系统下python新一代三方库管理工具uv及VSCode配置
  • STM32主频提升秘诀:PLL高速时钟深度剖析
  • ST7789背光控制电路原理及典型应用解析
  • 企业考勤财务智能报表系统_SpringBoot+Vue+Springcloud微服务分布式