当前位置：首页 > news >正文

模型压缩新思路：Engram条件记忆模块，小白也能看懂的记忆扩展魔法（收藏版）

news 2026/3/27 1:37:42

Engram是一种新型条件记忆模块，通过静态查表而非计算推理来增强大语言模型。该模块将N-gram嵌入升级为可扩展的哈希查表机制，在Transformer层中插入记忆检索路径，并结合上下文感知门控和动态调节技术。实验证明，在参数和计算量不变的前提下，将部分MoE专家容量分配给Engram能显著提升知识检索、推理和长程依赖建模能力，同时实现近乎零开销的内存扩展。适合对大模型优化感兴趣的开发者学习和实践。

论文标题：Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

论文地址：https://arxiv.org/pdf/2601.07372

代码地址：https://github.com/deepseek-ai/Engram

创新点

区别于MoE的条件计算，Engram引入条件记忆：通过静态查表方式获取知识，而非通过计算推理。
提出了一种名为 Engram 的新架构模块，旨在为大语言模型（LLM）引入一种条件记忆（conditional memory）机制，作为现有条件计算（如MoE）的补充稀疏维度。

方法

本文提出一种名为Engram的条件记忆模块，通过将经典N-gram嵌入现代化为可扩展的哈希查表机制，在Transformer的特定层中插入静态记忆检索路径，并采用上下文感知门控动态调节记忆融合强度，结合多分支架构与系统级预取策略，在严格保持参数总量和计算量不变的前提下，将部分MoE专家容量重新分配给Engram记忆，从而构建出混合稀疏架构，并通过大规模预训练、机制解释性工具（LogitLens与CKA）以及长上下文扩展实验，验证该架构在知识检索、一般推理和长程依赖建模上的增益，同时利用确定性地址访问实现主机内存卸载与通信-计算重叠，达到近乎零推理开销的百億级记忆扩展。

Engram 架构示意图

本图整体展示 Engram 模块的工作流：输入序列先经过标准词元嵌入，随后在 Transformer 的某一层（图中为中间层）并行引入 Engram 子系统。该子系统把局部词元历史压缩成规范化的后缀 N-gram，通过多头的确定性哈希函数在巨大的嵌入表中完成 O(1) 查表，取出对应的静态记忆向量；这些向量再与当前隐藏状态做上下文相关的门控加权，经轻量一维卷积增强后，以残差形式注入主网络，与后续的 Attention 和 MoE 专家共同决定下一层表示。这样一来，模型把“死记硬背”的局部模式交给常数时间的静态查找，把真正的动态推理留给稀疏激活的专家计算，实现记忆与计算的结构性分离。

Engram系统实现

本图从系统实现角度对比了Engram在训练与推理阶段的执行流程：训练时，巨大的N-gram嵌入表被切分到多块GPU，通过All-to-All通信按需拉取激活行，完成前向计算后再将梯度回传，实现参数规模随卡数线性扩展；推理时，整张表被卸载到容量充裕的主机内存，由于哈希索引完全由输入序列确定，系统可以在运行Transformer前段计算的同时，通过PCIe异步预取即将用到的嵌入向量，并与GPU上的后续层计算重叠，几乎不引入额外延迟。

稀疏容量分配与Engram缩放

本图左侧展示了在总参数和训练算力均被锁定的条件下，将稀疏容量在MoE专家与Engram记忆之间按不同比例ρ分配时验证损失呈现的U形曲线：纯MoE（ρ=100%）并非最优，把约20%–25%的“免费”参数从专家挪给Engram后损失显著下降，且该最佳分配比例在2×10²⁰和6×10²⁰ FLOPs两档算力下保持稳定；右侧则在固定3B MoE主干的“无限记忆”设定下，单纯放大Engram嵌入槽数量，验证损失随槽数对数线性下降，表明只要存储预算允许，继续加码静态记忆仍能稳定收益。

实验

本表在“总参数、激活参数、训练 token 数三者完全相同”的硬约束下，把 27 B 参数的 MoE 基线与同尺寸的 Engram-27B、以及进一步把记忆表扩充到 18.5 B 的 Engram-40B 放在同一张对照表中：纵览各行指标可见，Engram-27B 仅用 55 个路由专家（比 MoE-27B 少 17 个）就把省下的参数换成 5.7 B 的 N-gram 嵌入，结果在语言建模困惑度上先降 0.01 级别，进而在知识类任务（MMLU 系、CMMLU、C-Eval）提升 2–4 个百分点，在需要复杂推理的 BBH、ARC-Challenge、DROP 上优势扩大到 3–5 个百分点，代码与数学赛道（HumanEval、MATH、GSM8K）也普遍净增 2–3 个百分点；继续放大记忆到 Engram-40B 后，绝大部分指标仍沿原方向单调提高，验证损失持续下降，显示“把稀疏预算挪给静态记忆”这一策略不仅不损失算力，反而在通用理解、推理、长依赖建模上全面兑现增益，且尚未触及记忆规模的上限。

最后

我在一线科技企业深耕十二载，见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。