最新 AI 论文盘点(2026-04-12):5 篇新作看长时记忆、推理微调、可审计医疗抽取、端侧个性化与分层 RAG
最新 AI 论文盘点(2026-04-12):5 篇新作看长时记忆、推理微调、可审计医疗抽取、端侧个性化与分层 RAG
今天这批论文如果放在一起看,有一条线特别明显:
LLM 研究正在从“会回答”往“会长期工作”迁移。
这里的“长期工作”不是一句空话,而是越来越具体地体现在这些问题上:
模型能不能在持续交互里真的记住东西,而不是只会短上下文检索?
强老师模型蒸出来的数据,为什么有时反而把学生模型带偏?
医疗证据抽取如果不能逐格追溯来源,到底配不配进入真实工作流?
个性化生成是不是一定要把用户数据送上云,还是可以在端侧完成?
RAG 如果只做“平铺式检索”,是不是已经开始撞上效率和解释性的天花板?
这几篇论文的共同特点是:
它们都不满足于再做一个“更强模型”,而是在认真处理系统真正落地时最容易出问题的几个环节:
记忆
适配
审计
个性化
检索结构
我今天挑 5 篇来盘,分别来自长时记忆评测、推理模型微调、医疗多智能体抽取、端侧输入法和网络安全 RAG。
它们方向很散,但拼在一起看,反而能更清楚地看到一个趋势:
下一阶段 AI 系统的竞争,越来越像是在比“能不能稳定地把能力组织起来”,而不只是比瞬时输出有多惊艳。
1)MemGround:长时记忆评测不能再停留在“问一句、答一句”了
arXiv:2604.14158
标题:MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios
方向:LLM 长时记忆 / benchmark / memory agent
这篇论文首先瞄准的是一个很基础、但过去经常被忽略的问题:
我们到底在怎么评测大模型的“长期记忆”?
过去很多所谓 memory benchmark,本质上都还是:
给一点上下文
做一次检索
回答一个问题
这种评测当然有价值,但它测到的更像是:
短期上下文利用
简单信息回忆
静态条件下的问答能力
而不是持续交互中真正麻烦的那部分能力,比如:
动态状态跟踪
长时间事件关联
多轮积累后的推理
记忆使用轨迹到底对不对
MemGround 的思路很明确,就是把这件事从静态问答改成更接近持续交互的游戏化场景。
它设计了一个三层结构去测:
Surface State Memory
Temporal Associative Memory
Reasoning-Based Memory
同时还不只给最终答对率,而是加入了几类更像“过程指标”的度量:
QA Overall
MFU(Memory Fragments Unlocked)
MFCO(Memory Fragments with Correct Order)
ETD(Exploration Trajectory Diagrams)
这篇论文最值得注意的,不是它又造了一个 benchmark,而是它在推动一个更现实的共识:
长期记忆不是把上下文窗口拉长就结束了。
真正麻烦的地方在于,模型要在连续环境里维持状态、连接事件、并从累计证据里做推理。
作者的实验结论也不意外:即使是当前 SOTA 的 LLM 和 memory agent,在动态追踪、时间关联和复杂推理上仍然明显吃力。
如果你在做:
长会话助手
记忆型 Agent
游戏 / 仿真交互智能体
多天任务协作系统
这篇论文很值得看。因为它提醒我们:
很多所谓“有记忆”的系统,其实只是把历史塞得更多,并不等于真的会持续记住。
2)TESSY:强老师蒸出来的数据,不一定适合学生模型吃
arXiv:2604.14164
标题:How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
方向:推理模型微调 / synthetic data / SFT
这篇论文抓的是现在推理模型训练里一个很现实的坑。
大家都知道,拿更强模型来合成 SFT 数据,是现在非常常见的做法。
直觉上也很合理:
老师更强
老师能写出更好的推理过程
学生拿这些数据继续训,理应更强
但作者指出,这套逻辑对 reasoning model 并不总成立。
尤其像 Qwen3-8B 这类学生模型,直接吃强老师生成的数据,有时不仅没提升,反而会掉点。
问题出在哪?
作者的判断很关键:
不是老师不够强,而是老师生成数据的“风格分布”跟学生原本分布差得太远。
也就是说,学生不是单纯在学知识,而是在被迫模仿一种和自己不一致的表达与推理方式。
于是他们提出 TESSY。
它的核心不是让老师一口气把整条数据写完,而是让 teacher 和 student 交替生成不同类型的 token:
老师负责更偏能力和推理性的部分
学生负责更贴近自身分布的 style token
这样得到的数据既保留老师的高级能力,又不会把学生整体分布拉得太偏。
实验结果很有意思:
用 GPT-OSS-120B 作为 teacher
直接用 teacher 数据微调 Qwen3-8B,LiveCodeBench-Pro 和 OJBench 反而下降 3.25% 和 10.02%
用 TESSY 后,两个 benchmark 分别提升 11.25% 和 6.68%
我觉得这篇论文最重要的启发是:
“更强的数据”不是一个抽象概念,数据和模型分布是否匹配,同样重要。
这对当前很多蒸馏、合成数据、后训练工作都有现实意义。
很多时候大家默认:
老师越强越好
推理链越长越好
数据量越大越好
但这篇工作在提醒:
如果学生接不住,这些东西不一定变成增益,也可能直接变成训练噪声。
3)EviSearch:医疗抽取系统真正缺的,往往不是“会不会抽”,而是“能不能审”
arXiv:2604.14165
标题:EviSearch: A Human in the Loop System for Extracting and Auditing Clinical Evidence for Systematic Reviews
方向:医疗 NLP / 多智能体系统 / systematic review / provenance
这篇论文我觉得非常有落地味。
它做的是系统综述场景下的临床证据抽取。
这类任务表面看很像“从 PDF 里抽结构化信息”,但真正进到医疗工作流,问题马上就不是抽不抽得出来,而是:
你抽的每个字段能不能回溯到证据页?
模型和模型之间冲突时,谁来仲裁?
医生或审稿人能不能快速检查并修正?
系统能不能把人工修正反过来变成下一轮监督信号?
EviSearch 的设计很像一种更认真版本的“多智能体 + 人在环”。
它的关键模块包括:
一个 PDF-query agent,保留版式、图表等原始呈现信息
一个 retrieval-guided search agent,负责检索和抽取
一个 reconciliation 模块,当两个 agent 不一致时,强制做页级验证
这套设计的重点非常清楚:
不是只追求自动化,而是把可审计性和可纠错性从一开始嵌进系统。
作者强调的是 per-cell provenance,也就是证据表里的每一个单元格,都要有可检查的出处。
在一个临床医生参与构建的肿瘤论文 benchmark 上,它相对强 parsed-text baseline 有明显提升,同时还能提供比较完整的 attribution coverage。
更有意思的是,系统还会记录:
reconciler 的决策
reviewer 的修正
这样后续就能沉淀成新的偏好和监督信号,用来继续迭代模型。
我觉得这篇论文非常能代表一个成熟方向:
在高风险领域,真正重要的不是“全自动”,而是“自动化 + 可追责 + 可纠正”。
如果你在看医疗 Agent、证据抽取、科研辅助系统,这篇很值得重点关注。
4)HUOZIIME:端侧个性化,可能比很多人想象得更快落地
arXiv:2604.14159
标题:HUOZIIME: An On-Device LLM-enhanced Input Method for Deep Personalization
方向:端侧 LLM / 个性化输入法 / hierarchical memory
这篇论文切的点很生活化,但其实特别重要。
输入法是用户最频繁使用、也最贴近个人习惯的 AI 入口之一。
问题在于,传统输入法虽然有联想和纠错,但在“真正理解这个人怎么表达”这件事上,一直做得很有限。
而如果把更强的个性化生成放到云端,又会立刻遇到两个老问题:
隐私
延迟
HUOZIIME 的目标就是把这件事尽量搬到端侧。
作者提出的是一个 LLM 增强输入法,核心包括:
先用合成个性化数据对 base LLM 做后训练
设计分层记忆机制,持续捕获和利用用户输入历史
做面向移动端部署的系统优化,保证响应速度和可运行性
这篇论文有意思的地方在于,它不是在讲一个“云上更强的聊天机器人”,而是在讲:
能不能把 LLM 变成更贴身、但又不离开设备的数据层助手。
这背后其实包含了几个越来越重要的趋势:
第一,个性化会越来越从“单轮偏好”转向“长期行为习惯”
真正的个性化,不只是你喜欢正式语气还是口语,而是:
你常写什么结构
常用哪些词
面对不同对象怎么切换表达
第二,端侧记忆机制会成为核心能力
如果没有持续记忆,端侧 AI 很难真正做到“越用越懂你”。
第三,端云分工会越来越细
不是所有个性化都该上传,也不是所有生成都要在本地完成。
HUOZIIME 代表的是一种很实际的思路:
把最贴近用户习惯、最敏感的那部分能力尽量留在端上。
如果未来 AI 真要深入个人设备,这类工作很可能比很多“大而全助手”更先落地。
5)H-TechniqueRAG:RAG 不该永远是“把所有候选一起塞进去”
arXiv:2604.14166
标题:Hierarchical Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
方向:RAG / 网络安全 / 分层检索 / taxonomy-aware reasoning
最后这篇论文来自网络安全文本分析,但它的启发其实对很多 RAG 系统都成立。
任务是把 CTI(Cyber Threat Intelligence)文本映射到 MITRE ATT&CK technique IDs。
这类任务的难点在于:
标签空间本身是有层级结构的
tactic 和 technique 之间不是平铺关系
如果所有候选都一次性平铺检索,既浪费上下文,也容易让生成阶段超载
作者指出,很多现有 RAG 方法的问题就在这里:
它们默认采用 flat retrieval,把所有技术项当成同一级别处理。
于是他们提出 H-TechniqueRAG,核心是把 ATT&CK taxonomy 直接注入检索和组织流程里:
第一步先识别更宏观的 tactic
第二步再在对应 tactic 下细化到 technique
再配合 tactic-aware reranking 和 hierarchy-constrained context organization
结果很漂亮:
候选搜索空间减少 77.5%
F1 相比 SOTA TechniqueRAG 提升 3.8%
推理延迟下降 62.4%
LLM API 调用减少 60%
这篇论文真正值得记住的点不是“安全领域又有一个新 RAG”,而是它再次说明:
RAG 的瓶颈很多时候不在于“检索不够多”,而在于“检索结构不对”。
如果底层知识本来就带有:
层级关系
分类结构
本体约束
先粗后细的决策流程
那把它们全都拍平再交给大模型,往往既慢又不稳。
这对很多领域都成立,比如:
医疗编码
法律条款匹配
企业知识库问答
多级商品与风险分类
所以我觉得这篇论文的价值,不只是任务成绩,而是在提醒大家:
下一阶段 RAG 会越来越像“结构化检索 + 受约束推理”,而不是单纯把更多文档塞进 context。
结语
如果把今天这 5 篇论文放到一起看,我觉得最值得记住的一句话是:
AI 系统正在从“会生成”走向“会长期协作”。
这里的“长期协作”包含了几层意思:
要会记:MemGround
要会适配学生模型分布:TESSY
要会在高风险场景里留下可审计证据:EviSearch
要会在设备侧持续个性化:HUOZIIME
要会利用知识结构而不是只会平铺检索:H-TechniqueRAG
这些问题看起来不像“再刷一个大榜单”那样热闹,但它们更接近真实系统迟早要面对的地方。
也就是说,未来真正拉开差距的,可能不只是模型本体,而是:
你的系统能不能在记忆、微调、审计、个性化和检索结构上形成闭环。
这才是从 demo 走向长期可用产品时,最难也最值钱的部分。
