当前位置：首页 > news >正文

复旦大学与上海人工智能实验室联手打造的“技能记忆“系统

news 2026/6/15 21:20:02

这项由复旦大学、上海人工智能实验室、上海创新研究院及华中科技大学联合开展的研究，以预印本形式于2026年6月发布，论文编号为arXiv:2606.09365v1，有兴趣深入了解的读者可通过该编号查询完整论文。

**当一位经验丰富的老医生遇到疑难病例时**

一位行医三十年的老医生，见过太多奇奇怪怪的病例。当一个新患者坐到诊室里，他不只是机械地查阅医学教科书，而是在脑海中飞速翻阅自己多年积累的病案经验——"这个症状组合，我上周遇到一个类似的"、"这种用药顺序之前出过问题，要小心"。这种从经验中提炼出来的直觉，正是顶尖临床医生与刚毕业医学生之间最根本的差距。

然而，当前的医疗AI系统，即便再聪明，大多数都像是一个记忆力很好却没有临床经验的医学生——它们能背出教科书上的所有知识，但每次面对新患者时都是"从零开始"，完全不记得自己之前处理过多少类似的案例，更无法从那些经验中提炼出可以反复使用的临床智慧。

这篇论文提出的SkeMex系统，正是为了解决这个问题而生的。研究者们希望让AI医生真正拥有"职业成长"的能力——不是通过重新训练、重新学习来升级，而是像一个在岗位上持续积累经验的临床医生那样，在每一次与患者的互动中悄悄变得更聪明、更可靠。

**一、医疗AI的成长困境：为什么聪明的AI总是"健忘"**

要理解这个问题，可以先想象一家大型医院里有一个全科AI助理，每天处理来自不同科室的临床问题，从诊断罕见病到制定复杂的用药方案。按道理，这个AI每天都在积累经验，应该越来越厉害才对。

然而现实往往令人沮丧。传统的AI系统存在两种极端状况：要么完全不记得过去的经验，每次都当作第一次见到类似问题；要么把所有经历到的原始记录一股脑儿堆在记忆库里，结果那些记录大量重复、噪音很多，每次要找有用信息时，简直像在杂乱的储藏室里找一把钥匙。

还有一些研究者尝试了另一条路：通过"重新训练"AI模型本身来让它学习新经验。这种方式就好比你每次想让员工学到新技能，都要给他做一次全面的"大脑改造手术"，不仅代价高昂，还有一个致命风险——新知识可能冲刷掉旧知识，让AI忘记之前已经掌握的宝贵能力，医学上称之为"灾难性遗忘"。

这篇论文的研究团队指出，当前的记忆机制还有一个更根本的问题：它们从不思考"哪些记忆真的有用"。一个有用的经验和一个误导性的经验，在传统记忆系统眼里待遇是完全一样的，都被原封不动地保存下来，等到用的时候一起端上来，让AI自己去辨别。这就像一个厨师把每次做菜的所有过程都拍下来，不管成功还是失败，等下次做菜时把所有录像一起播放，而不是把那些真正有用的技巧单独整理出来。

**二、SkeMex的核心思路：从"堆经历"到"炼技能"**

SkeMex的名字来自"Skill-based Memory Evolution"（基于技能的记忆进化），这个名字精准地传达了它的核心理念：重要的不是把经历本身存起来，而是把经历背后可以复用的"技能"提炼出来。

以一位临床医生学习新知识为例。假设他接诊了十个因为抗生素选择不当而导致病情加重的案例。一个经验浅的医生可能只是记住了"我见过这十个案例"；而一个优秀的医生会从中提炼出一条规律："在肾功能不全的患者中，使用这类抗生素前需要先检查肌酐水平，否则容易引发药物蓄积"。后者提炼出来的，就是一条可以在未来所有类似情况下反复使用的"技能"。

SkeMex做的正是这件事。它不存储原始的诊疗过程，而是从那些过程中萃取出结构化的"技能条目"——每一条技能都清晰说明了"什么情况下适用"、"应该怎么做"以及"涉及哪些具体的操作步骤"。这些技能条目就像是一本不断更新的临床操作手册，既简洁可读，又具有普遍适用性。

更重要的是，SkeMex还会持续评估每一条技能"到底有没有用"。每次使用某条技能之后，系统会根据最终的临床结果来给这条技能打分——如果这条技能帮助AI做出了正确的判断，它的评分就会提高；如果它导致了错误，评分就会降低。这种机制就像是对技能的"绩效考核"，确保记忆库里留下来的都是真正经过实战检验的有效经验。

**三、记忆仓库的三层结构：通用智慧、专科经验与操作技巧各司其职**

在SkeMex的设计中，所有提炼出来的技能条目被组织进一个三层结构的记忆仓库，三个层次分别承担不同的职责，彼此互补。

第一层叫做"通用技能库"，存放的是那些跨越科室、跨越疾病类别都适用的普遍性思维方法。举个例子，"当第一次搜索没有找到直接答案时，换个关键词或者用更宽泛的术语重新搜索，而不是重复同一个查询"——这条经验无论是在诊断罕见病、制定治疗方案还是回答患者问题时都管用，因此放在通用层。

第二层叫做"任务级技能库"，存放的是针对特定临床任务类型的专门经验。比如"在处理疑似心脏病发作的急诊案例时，应先调用药物相互作用检查工具，再进行最终用药决策"——这条经验只在特定类型的任务中有价值，因此单独归类存放。

第三层叫做"操作技能库"，存放的是使用特定工具时的精细化操作经验。比如"调用影像分析工具时，如果传入的是X光片而非CT扫描，需要在查询里额外注明影像类型，否则模型会做出错误的判断"——这种非常具体的操作细节，正是在真实使用中一点点积累出来的宝贵经验。

这三层结构的设计，解决了一个在记忆系统研究中长期存在的混乱问题：以前所有经验都混在一个池子里，通用的和专用的相互干扰，在使用时很容易检索到不匹配的经验，反而帮倒忙。三层分离之后，每一类技能在自己的专属空间内管理，相互之间不再竞争，检索时也可以更有针对性地从不同层次各取所需。

**四、四步闭环：读取、写入、评估、治理，让记忆持续进化**

SkeMex的运作可以用一个词来概括：闭环。它设计了一套完整的"读取—写入—评估—治理"的循环机制，让记忆仓库在每一次临床交互之后都能变得更好。

在"读取"阶段，当一个新的临床任务到来时，系统会先对任务进行分类——比如这是一个"鉴别诊断"任务还是"治疗方案制定"任务——然后根据分类，从记忆仓库里检索出最相关的技能。检索时不只看技能内容与当前任务的语义相似度，还会综合考量每条技能历史上的实际效果评分，以及这条技能最近是否经常被使用并产生了正面效果。这种多维度的综合评分，就像图书馆里的智能推荐系统，既考虑书的内容是否相关，也考虑这本书读者评价如何以及最近是否有人推荐。

在"写入"阶段，每次完成一个临床任务后，系统会审视整个诊疗过程，判断其中是否有值得提炼的新经验。这个审视过程有一个重要的过滤机制：太简单的成功（三步以内就解决了的任务）不值得提炼，因为它们很可能只是运气好；纯粹的工具调用失败也不值得提炼，因为那只是技术错误，不涉及临床智慧；而那些经过多步推理、反复验证才得出结论的案例，无论最终成功还是失败，都往往蕴含着值得总结的经验。通过了过滤的案例，系统会进行一个两步的提炼过程：先分析案例中的核心模式和关键转折点，再把这个模式转化为一条结构化的技能条目，或者对现有的某条技能进行补充修正。

在"评估"阶段，系统用一种类似"考试成绩排名"的方法来评估每条技能的表现。具体来说，每次技能被使用后，系统不是直接看这次任务的绝对结果，而是与同类任务的平均水平相比较——如果使用了这条技能后，结果比平均水平好，技能得分提高；如果比平均水平差，技能得分降低。这种相对评估的方法，解决了医疗任务中一个棘手的问题：有些疾病本身就很难处理，即使做得已经很好了，绝对结果可能看起来也不理想；而有些疾病很简单，随便处理都能成功。把技能表现与类别平均值对比，才能公平地判断技能本身的价值。

在"治理"阶段，系统会定期对记忆仓库进行"大扫除"。内容高度相似的技能会被合并，避免冗余；长期得分低落、屡屡帮倒忙的技能会被降级甚至删除；而那些经过大量实战验证、长期保持高分的技能，则会被晋升为"成熟技能"的特殊状态，在未来的检索中会获得额外的优先权。这种机制让记忆仓库不会无限膨胀，也不会被历史错误长期污染，保持在一个精炼、可靠的状态。

**五、用数字说话：SkeMex在九个临床数据集上的表现**

研究团队在九个不同的医疗评测数据集上检验了SkeMex的效果，这些数据集覆盖了从互动式诊断对话到多选题推理，从纯文字案例到包含医学影像的多模态任务，代表了临床AI面临的各种真实场景。

在"离线"测试中——也就是先用一批案例积累技能记忆，再用另一批全新案例测试效果——以DeepSeek-V3.2作为基础AI模型，SkeMex让原本的医疗AI系统从48.20%的平均正确率提升到了56.08%，整整提高了接近8个百分点。而与其他同类记忆增强方法相比，SkeMex的表现比排名第二的方案高出了将近4个百分点。使用另一款AI模型Qwen3.6-Plus时，SkeMex让系统从48.63%跃升到59.22%，提升幅度超过10个百分点。

更能说明问题的是"迁移测试"——把用某些数据集积累的技能记忆，直接用在训练阶段从未见过的全新数据集上。这是检验AI系统是否真的学到了"通用临床智慧"而非只是记住了特定数据集特点的金标准。在这个测试中，SkeMex在DeepSeek-V3.2上的平均表现比普通医疗AI高出了13.78个百分点，比最好的竞争方案还高出了5.44个百分点。其中，在"AgentClinic文字版"这个互动诊断数据集上，SkeMex的提升幅度高达34.11个百分点，展示出惊人的迁移学习能力。

在"在线"测试中——让系统在处理任务的同时实时更新记忆，连续运行三轮——SkeMex从第一轮的76.39%稳步提升到第三轮的78.56%，展示了持续学习的能力。相比之下，一些竞争方案在更新记忆后反而出现了性能下滑的情况，说明它们的记忆更新机制引入了新的错误信息，而SkeMex的过滤和评估机制有效避免了这个问题。

**六、技能能跨越AI模型传递：一个意外的重要发现**

研究团队在实验过程中发现了一个非常有意思的现象：用DeepSeek-V3.2积累的技能记忆仓库，不经过任何修改，直接拿来给完全不同的AI模型使用，效果依然相当不错。

具体来说，研究者把DeepSeek-V3.2积累的技能库，直接插入到Claude Sonnet-4.6和Qwen3.6-35B-A3B这两个完全不同架构的AI模型中，测试它们的临床表现。结果显示，Claude Sonnet-4.6使用这个"跨模型技能库"后，平均准确率从49.59%提升到了60.27%，提升幅度达到10.68个百分点；Qwen3.6-35B-A3B则从47.71%提升到了58.23%，提升幅度超过10个百分点。

这个发现深刻说明了SkeMex技能库的本质：它存储的不是特定AI模型的"回答方式"或"语言风格"，而是真正通用的临床推理程序——"在什么情况下该做什么"这种逻辑，对任何善于理解语言的AI模型都是有价值的。换句话说，这套技能库就像一本写给任何医生都能读懂的操作手册，而不是专门为某位医生量身定制的个人笔记。

对于实际应用来说，这意味着一种很有吸引力的可能性：一家医院可以用一个强大的AI模型积累临床经验，然后把这套经验直接传授给其他模型使用，而无需让每个模型都从头重新积累，大大节省了时间和计算成本。

**七、拆解SkeMex：每个设计决策都有它的道理**

研究团队做了大量的消融实验——也就是逐一"拆除"系统的某个组件，看看性能会如何变化，以此验证每个设计决策的必要性。

在记忆写入部分，他们发现，如果取消对进入记忆仓库的轨迹进行过滤（不再区分有价值的案例和无价值的案例，全部写入），系统的平均准确率从53.22%骤降到47.56%，降幅接近6个百分点。这是所有消融实验中最大的单项降幅，清楚地说明"只存好的、过滤坏的"这个看似简单的原则，实际上是整个系统最重要的设计之一。

在技能评估部分，他们发现，如果去掉"与类别平均水平相比较"这个相对评分机制，改用绝对分数来评估技能，准确率会在多个数据集上出现显著下滑，在LiveMedBench上甚至下降了7个百分点。这证明了那个直觉上可能有些反常的设计——评估一个技能好不好，不能只看绝对结果，而要放在类似任务的背景下做相对评价。

在三层记忆结构部分，他们测试了只使用其中一层或两层的情况。结果显示，任何单层或双层的组合，表现都不如三层完整结构。特别值得注意的是，仅有通用技能层加操作技能层的组合（缺少任务级技能层），表现比完整结构差了4.57个百分点，说明"面向特定类型任务的专项经验"不是可有可无的锦上添花，而是整个系统不可或缺的重要组成部分。

在记忆治理部分，他们发现，去掉"技能成熟晋升"机制导致了5.62个百分点的下降——这是治理相关实验中最大的单项损失，说明区分"经过充分验证的稳定技能"和"刚刚创建的试用技能"对于系统的长期可靠性至关重要。去掉技能淘汰机制或去掉重复合并机制，同样各导致了接近3到4个百分点的下降。

**八、运行效率的真实代价：更深的思考需要更多的时间**

既然SkeMex能让AI系统变得更聪明，那它的代价是什么？研究团队在论文中对执行效率进行了详细的统计。

从每个任务的平均交互步数来看，不使用记忆增强的普通医疗AI平均只需要3.17步就完成一个任务，而SkeMex平均需要4.77步。这个差距在一些复杂数据集上尤为明显——在LiveMedBench上，SkeMex平均需要6.139步，而普通AI只需要3.578步。步数增加的原因很直接：检索到的技能往往会引导AI去做更多的求证步骤，比如先调用工具获取更多信息、再进行分步验证，而不是直接凭直觉给出答案。

从耗时来看，SkeMex平均每个任务需要约116秒，而普通医疗AI只需要约54秒。每一步的平均用时，SkeMex约为24秒，也高于普通AI的17秒，原因之一是技能检索本身需要额外的时间，另一方面也是因为注入的技能内容使得每次模型调用的输入更长，处理时间也更长。

不过，有一个有趣的例外：在HealthBench这个数据集上，SkeMex的平均耗时反而比普通AI还要短（52秒 vs 64秒）。研究团队的解释是，当检索到的技能与当前任务高度匹配时，AI能更快地找到正确路径，减少了无效的探索步骤，整体上反而比"无经验的漫无目的尝试"更高效。这个发现暗示了一种可能：在足够丰富的技能积累之后，SkeMex的效率提升效应可能会逐渐超过其带来的额外开销。

**九、从研究到现实：这套系统解决的是医疗AI的根本难题**

归根结底，SkeMex触及的是一个关于AI系统"如何成长"的根本问题。当前大多数AI系统的成长方式非常笨拙：要么通过昂贵的重新训练来学习新知识，要么就干脆不成长，永远停在训练结束时的水平。SkeMex提供了第三条路：让AI通过积累经验来成长，但经验不是原封不动地堆放，而是被提炼成可复用的知识，经过实战检验后保留下来，经过反复验证后升华为成熟的临床智慧。

这种成长方式，在不修改AI模型任何参数的前提下实现，意味着它可以非常灵活地与各种现有系统集成，也意味着它天然规避了重新训练带来的灾难性遗忘风险。研究团队在实验中证明，这套机制在九个不同类型的医疗评测场景中都能稳定地提升AI表现，在从未见过的新场景中也能迁移有效，并且适用于多种不同架构的AI基础模型。

当然，研究团队也坦诚地指出了现有系统的局限：当前的测试数据集无法完全模拟真实临床环境的复杂程度；额外的推理时间对某些对响应速度要求极高的应用场景可能构成障碍；此外，如果AI系统提炼出了错误的技能规律，而没有被评估机制及时识别，这些错误经验也可能反过来影响之后的判断，因此人类的监督和审核仍然不可或缺。

说到底，SkeMex代表了一种令人信服的思路转换：与其让AI成为一个永远保持原样的"知识储存器"，不如让它成为一个能够从实践中不断提炼智慧的"临床学习者"。医疗AI是否真的能像一位随着岁月变得愈加睿智的老医生那样成长，这个问题的答案，正在这项研究中一点点变得清晰。对于这个领域感兴趣的读者，可以通过arXiv编号2606.09365查阅原文，亲自品味其中更多的技术细节。

---

Q&A

Q1：SkeMex的技能记忆仓库里存的是什么？

A：SkeMex存储的不是完整的诊疗对话记录，而是从那些记录中提炼出来的结构化"技能条目"。每条技能清晰说明了在什么情况下适用、应该怎么做以及涉及哪些操作步骤。这些技能分三层管理：通用推理方法、面向特定任务类型的专项经验，以及特定工具的精细操作技巧，三层各司其职，互不干扰。

Q2：SkeMex如何判断一条技能是好是坏？

A：SkeMex采用相对评分而非绝对评分。每次技能被使用后，系统会把这次任务的结果与同类任务的历史平均水平相比较——结果高于平均则给技能加分，低于平均则扣分。这样做是因为不同医疗任务本身的难度差异很大，用绝对结果评价技能会产生严重的不公平，而与同类任务比较才能真正衡量技能本身的贡献。

Q3：SkeMex积累的技能可以给不同的AI模型共用吗？

A：可以。研究团队做了专门的实验，把用DeepSeek-V3.2积累的技能库直接给Claude Sonnet-4.6和Qwen3.6-35B-A3B使用，结果两个模型的表现都提升了超过10个百分点。这说明SkeMex存储的是通用的临床推理逻辑，而非特定模型的偏好，任何能理解语言的AI模型都能从中受益，就像一本任何医生都能读懂的操作手册一样。

查看全文

http://www.jsqmd.com/news/1019119/