当前位置：首页 > news >正文

06-02 · LLM 最新论文速览

news 2026/6/3 1:12:58

今日候选池105篇，硬过滤 + LLM 打分后通过评估18篇，精选 Top-10，另列 8 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. SimSD: Simple Speculative Decoding in Diffusion Language Models

评分9.1·方向cs.CL · Computation and Language ·arxiv2606.02544· PDF

💡 SimSD 为扩散语言模型设计 plug-and-play 掩码策略，使其兼容 token 级投机解码实现推理加速

扩散语言模型投机解码推理加速

摘要：扩散大语言模型（dLLMs）通过并行或分块解码实现快速推理，但其掩码语言建模范式与自回归模型中高效的投机解码（speculative decoding）技术不兼容——dLLMs依赖双向注意力和mask token，有效上下文随去噪步骤变化，无法直接进行token级投机验证。本文提出SimSD，一种简单有效的dLLM投机解码算法：通过即插即用的掩码策略，引入草稿模型预测的参考token，并设计注意力掩码调控其与当前步token的交互，使dLLM能在单次前向传播中为草稿token计算有效logits，恢复类似因果掩码的验证能力，同时保留并行解码优势。该方法无需训练，可灵活与其他加速技术结合。

评分细项：rel 10 / nov 8 / prac 8 / author 7

2. Regime-Adaptive Continual Learning for Portfolio Management

评分8.1·方向q-fin.PM · Portfolio Management ·arxiv2606.00143· PDF

💡 提出 ReCAP 框架，用自适应 regime 检测分割市场状态并构建策略库，通过 regime-gate 持续学习实现组合管理快速适应。

量化交易组合管理持续学习regime切换

摘要：金融市场具有非平稳性，频繁的regime转换使传统投资组合管理方法失效。滚动窗口重训练计算成本高，简单在线微调知识利用不足。本文提出ReCAP框架，将持续学习（Continual Learning）融入投资组合管理：通过自适应regime检测模块将历史数据分割为变长regime，学习对应的策略向量并构建策略库；在持续交易中，regime-gate模块根据当前市场状态自适应组合策略库中的向量，实现对新regime的快速适应，且仅更新gate和当前regime策略向量以保留已有知识。在五个真实数据集上的实验表明，ReCAP在长期投资收益和快速适应方面持续优于主流基线方法。

评分细项：rel 9 / nov 7 / prac 8 / author 5

3. Multi-Agent Computer Use

评分7.7·方向cs.MA · Multiagent Systems ·arxiv2606.01533· PDF

💡 提出多 agent 计算机操作框架 MACU：manager 将任务分解为 DAG 并行调度子 agent，持续修订节点以应对部分可观测环境。

多agent计算机操作DAG调度CMU

摘要：当前计算机使用代理（CUA）多以单一串行方式部署，难以应对需要任务分解、并行执行和动态重规划的复杂长时域任务。本文提出多代理计算机使用（MACU）系统：管理模型将任务分解为有向无环图（DAG），编码子任务间的依赖关系；每轮迭代中，管理者向就绪前沿的节点派发并行子代理执行，并根据反馈持续修订 DAG（增删或改写节点）。该设计将部分可观测环境视为核心挑战，通过管理者和 DAG 结构保留并传递下游代理可能无法重新观测的信息。实验表明，MACU 在桌面（OSWorld）和网页导航（Online-Mind2Web、WebTailBench、Odysseys）基准上较强单代理基线提升 3.4–25.5%，具有更优的测试时计算扩展性，并能解决单代理易陷入僵局的长时域任务。

评分细项：rel 8 / nov 7 / prac 8 / author 7

4. SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training

评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2606.02355· PDF

💡 SIRI 三阶段框架：GiGPO 热身 → 自挖掘并验证技能 → 将有益技能蒸馏进 plain policy，推理时无需外部技能库，WebShop 上 Qwen2.5-7B 提升至 0.813。

LLM agent强化学习技能内化后训练

摘要：长时域 LLM 代理可受益于可复用技能，但现有技能方法常依赖外部技能生成器或推理时持久检索，增加工程复杂度与延迟。本文提出 SIRI 框架，通过三阶段实现技能的发现、验证与内化，且无需外部技能生成器或推理时技能库。首先用 GiGPO 热身获取基本交互能力并收集无技能成功轨迹；然后进行自挖掘，从自身成功轨迹中总结紧凑技能，并通过配对实验验证有效性；最后利用轨迹级效用和动作级优势，将有益的技能引导动作蒸馏进原始策略。推理时仅使用原始 prompt。在 ALFWorld 和 WebShop 上（Qwen2.5-7B-Instruct），SIRI 将 GiGPO 分别从 0.908 提升至 0.930、从 0.728 提升至 0.813，超越多种基线，且自挖掘策略可达到接近闭源大模型蒸馏的效果。

评分细项：rel 8.5 / nov 7.5 / prac 8.0 / author 7.0

5. Forget Attention: Importance-Aware Attention Is All You Need

评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2606.02332· PDF

💡 SISA 将 SSM 派生的 importance 信号直接注入 attention score 实现 score-level 融合，无需循环状态或自定义 kernel，NIAH 收敛速度比 Transformer 快 7×。

注意力机制SSM融合新型架构

摘要：现有混合语言模型（如 Jamba、Hymba）将注意力机制与状态空间模型 (SSM) 分置于独立模块或注意力头中，二者在注意力计算时互不通信。本文提出 SISA（SSM-Informed Softmax Attention），将 SSM 导出的重要性信号直接注入注意力分数内部，通过扩增 Q/K 向量在单次标准 SDPA 调用中完成，无需循环状态或自定义算子。在 152M/5B tokens 规模下，SISA 在 LAMBADA-greedy 上达 17.3%（Transformer 13.9%，Mamba-3 15.5%），NIAH 从 1K 步即达 100%，收敛速度为 Transformer 的 7 倍。该工作定义了 SSM-注意力混合的第三条设计轴——分数级融合。

评分细项：rel 8.0 / nov 8.0 / prac 7.0 / author 5.0

6. ResMerge: Residual-based Spectral Merging of Large Language Models

评分7.5·方向cs.CL · Computation and Language ·arxiv2606.02252· PDF

💡 发现 RL task vector 的主奇异方向与残差分量具有不同合并特性，提出 ResMerge 用球面残差共识做 RL 专家免训练合并。

模型合并RL后训练谱分解

摘要：模型合并可免训练地整合多个专家模型，但对强化学习 (RL) 微调后的专家仍颇具挑战。现有谱合并方法假设主奇异方向携带核心任务信号，低能残差可被压缩以减少冲突。本文发现该假设对 RL 任务向量不成立：将任务向量分解为谱头与残差后，两部分均能独立恢复大量行为知识，但谱头集中且易发生跨专家冲突，残差则更分散、聚合更稳定。据此提出 ResMerge：先通过球面残差共识自适应构建稳定的残差骨干，再以正向跨专家一致性门控的轻量头校正模块补回谱头信息。实验表明 ResMerge 在多组 RL 专家上优于代表性任务向量与谱合并基线。

评分细项：rel 8 / nov 7 / prac 7 / author 6

7. MOC: Multi-Order Communication in LLM-based Multi-Agent Systems

评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2606.02359· PDF

💡 提出多阶通信 MOC：构建多跳结构化证据流并用语义-拓扑合并算法压缩消息，降低多 agent 通信开销同时提升任务性能，代码开源。

多agent通信多跳依赖开源

摘要：基于大语言模型（LLM）的多智能体系统研究大多聚焦于协调拓扑优化，却忽视了一个同等关键的问题：如何高效传递和优化智能体间的消息？现有通信方案通常直接拼接一阶邻居回复，导致证据感受野受限，关键信息在多跳路径中被稀释。本文提出多阶通信方案（MOC），通过重构智能体间通信以捕获多跳依赖，并引入结构化消息整合策略保证效率。具体而言，MOC形式化通信机制以构建结构化多阶证据流，并设计语义-拓扑合并算法在token约束下优化语义保真度。在六个数据集和不同参数规模的LLM上的实验表明，MOC持续提升任务性能并降低通信开销。

评分细项：rel 8.5 / nov 7.0 / prac 7.5 / author 6.0

8. Unified Context Evolution for LLM Agents

评分7.4·方向cs.CL · Computation and Language ·arxiv2606.02304· PDF

💡 UCE 将 agent 经验外化为四类可进化上下文单元（Memory/Strategy/Workflow/Skill），按使用反馈打分裁剪并调度生成预算，ALFWorld 成功率提至 96.3%。

agentic workflow经验复用无梯度学习

摘要：基于LLM的智能体能结合推理与环境反馈解决多步交互任务，但每次执行都从固定上下文开始，任务结束后所获策略即丢失。现有方法要么局限于当前任务学习，要么将所有经验混入单一无类型存储，缺乏知识分类、质量追踪和短板补充机制。本文提出统一上下文演化框架（UCE），将智能体经验外化为一个由类型化可演化上下文单元（ECU）组成的动态库。UCE将经验分解为记忆、策略、工作流和技能四种互补类型，各自从轨迹中按特定条件生成，在决策时检索，通过反复使用结果评分，失效时剪枝。调度模块将生成预算分配给库中最薄弱的类型。实验中UCE将ALFWorld成功率从75.4%提升至96.3%，WebShop得分从45.1%提升至61.3%，且积累的库可迁移至其他模型无需重训。

评分细项：rel 8.0 / nov 7.0 / prac 7.5 / author 5.0

9. Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2606.02373· PDF

💡 将搜索 agent 的状态管理外置到环境侧 harness，RL 仅优化语义决策，20B 模型在 8 个检索基准上平均 recall 达 0.730。

多agent强化学习搜索agent

摘要：搜索智能体通常被训练为基于不断增长的上下文的策略，模型需同时做出搜索决策并记忆已见内容、约束状态等信息。本文认为这种范式将过多的状态管理负担加在策略网络上，强化学习被迫同时优化语义搜索决策和可由环境可靠维护的记录工作。作者提出 Harness-1，一个 20B 参数的搜索子智能体，在有状态搜索"harness"环境中通过强化学习训练。该 harness 在环境侧维护工作记忆（候选池、重要性标签集合、证据链接、验证记录、压缩去重观察及预算感知的上下文渲染），策略仅负责语义决策：搜索什么、保留/丢弃哪些文档、验证什么、何时停止。在覆盖网页、金融、专利和多跳问答的八个检索基准上，Harness-1 平均 curated recall 达 0.730，超越最强开源搜索子智能体 11.4 个百分点，并在未见过的迁移基准上表现尤为突出，表明基于显式搜索状态的强化学习能产生跨领域泛化的检索行为。

评分细项：rel 7.5 / nov 7.0 / prac 7.5 / author 7.0

10. AdaCodec: A Predictive Visual Code for Video MLLMs

评分7.0·方向cs.CV · Computer Vision ·arxiv2606.02569· PDF

💡 AdaCodec 借鉴视频编码 P 帧思想，仅在场景变化大时发送全帧 token，否则用紧凑运动/残差 token 表示帧间差异，将视频 MLLM 的 token 量压至 1/7。

视频MLLMtoken压缩推理加速

摘要：视频具有时间冗余性：相邻帧通常共享大部分对象、背景和布局。然而现有视频多模态大语言模型（video MLLMs）通常将每帧独立编码为 RGB 图像，导致视觉 token 大量重复已有内容。本文提出 AdaCodec——一种预测性视觉编码接口：仅当场景无法从先前上下文良好预测时才发送完整参考帧，否则以紧凑的 P-token 编码帧间变化（运动与预测残差）。在全部 11 个基准上，AdaCodec 在相同视觉 token 预算下优于 Qwen3-VL-8B 逐帧 RGB 基线；即使仅用 1/7 预算（32k token），也在所有长视频基准上超越 224k 基线；在五个通用视频基准上提升平均分数的同时，将首 token 生成时间从 9.26s 大幅降至 1.62s。

评分细项：rel 7 / nov 7 / prac 7 / author 6

📚 速览 · 其他通过评估的工作（8 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.AI7.0COMAP: Co-Evolving World Models and Agent Policies for LLM Agents· 💡 COMAP 让文本世界模型与 agent 策略闭环共演化：世界模型预测未来状态反馈，agent 做 future-aware reflection，再用 self-distillation 更新世界模型。
cs.MA7.0Dynamic Trust-Aware Sparse Communication Topology for LLM-Based Multi-Agent Consensus· 💡 提出 DySCo 动态稀疏共识机制，基于信任值与答案分歧度裁剪多 agent 通信边，将 token 开销从 O(n²) 降至预算约束内。
cs.MA6.9MetaForge: A Self-Evolving Multimodal Agent that Retrieves, Adapts, and Forges Tools On Demand· 💡 MetaForge 将 agent 工具使用分解为 judge-retrieve-adapt-forge 闭环，通过 RL 联合优化调用必要性与新技能锻造复用率。
cs.MA6.5Scaling Behavior of Single LLM-Driven Multi-Agent Systems· 💡 用 SIMAS 框架实验揭示同构多 agent 系统性能随 agent 数量呈递减回报曲线，最优数量取决于任务类型与模型能力。
cs.MA6.3FinCom: A Financial Multi-Agent Demo with Disagree-or-Commit Deliberation· 💡 FinCom 用 Disagree-or-Commit 协议强制多 agent 金融委员会在达成一致前进行显式批判，缓解谄媚式过早收敛。
cs.CL6.2From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression· 💡 SubFit 在子模块（Attn/FFN）粒度做非连续选择并用轻量残差旁路替换，改善后训练 LLM 压缩的困惑度-精度权衡
cs.MA6.2LLM Consortium for Software Design Refinement: A Controlled Experiment on Multi-Agent Collaboration Topologies· 💡 对比 12 种多 agent LLM 协作拓扑用于软件架构设计，发现结构化对抗式 prompt 和跨模型审查效果最优，并行合并最差。
q-fin.TR6.1Machine Learning-Based Bitcoin Trading Under Transaction Costs: Evidence From Walk-Forward Forecasting· 💡 用 XGBoost/LSTM/iTransformer 对 BTC 小时收益做 walk-forward 预测，引入成本感知过滤器恢复扣费后盈利能力