当前位置: 首页 > news >正文

06-30 · LLM 最新论文速览

今日候选池100篇,硬过滤 + LLM 打分后通过评估27篇,精选 Top-10,另列 17 篇速览。

关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易


🌟 精选

1.MOPDMOPD: Multi-Teacher On-Policy Distillation for Capability Integration in LLM Post-Training

评分9.0·方向cs.CL · Computation and Language ·arxiv2606.30406· PDF

💡 MOPD 用多领域 RL teacher 的 on-policy distillation,把多个能力蒸馏进 Qwen3-30B-A3B student。

LLM后训练RL能力蒸馏

摘要:本文针对 LLM 后训练中多能力整合困难的问题,提出 Multi-teacher On-Policy Distillation(MOPD)。方法先为各领域训练专门 RL teacher,再基于 student 自身 rollouts 进行蒸馏,从而减少 exposure bias,并提供更密集的优化信号。在 Qwen3-30B-A3B 上,MOPD 优于 Mix-RL、Cascade RL、Off-Policy Finetune 和 Param-Merge,几乎完整继承各 teacher 能力,并已用于 MiMo-V2-Flash 的工业级后训练。

评分细项:rel 9.5 / nov 8.0 / prac 9.0 / author 8.0

2.AgentsA1Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent

评分8.9·方向cs.CL · Computation and Language ·arxiv2606.30616· PDF

💡 Agents-A1用45K长轨迹SFT、多教师域路由蒸馏训练35B MoE智能体模型。

多智能体后训练SFT蒸馏长程智能体

摘要:本文提出 Agents-A1,一个 35B MoE agentic model,通过扩展 agent horizon 而非参数规模,达到接近万亿参数模型的表现。作者构建长程知识-行动基础设施,生成平均 45K tokens 的轨迹,并采用三阶段训练:全域 SFT、领域 teacher 训练、多 teacher 按领域路由的 on-policy distillation。Agents-A1 在 SEAL-0、IFBench、HiPhO 等长程 agent benchmark 上领先或具竞争力,为 35B agent 扩展长程能力提供了实践路径。

评分细项:rel 9.5 / nov 8.5 / prac 8.5 / author 7.0

3.TACOTACO: Tool-Augmented Credit Optimization for Agentic Tool Use

评分8.5·方向cs.MA · Multiagent Systems ·arxiv2606.30251· PDF

💡 TACO 用 DAPR 探针奖励和 GRPO 双优势通道,为代码工具调用分配自监督信用。

AgentRLGRPO工具调用

摘要:TACO 面向使用代码工具的多模态 agent,解决工具调用有用、冗余或误导时难以精确信用分配的问题。它在 GRPO 中引入两条优势信号:DAPR 通过插入 probe token 比较有无工具时答案奖励差异,无需外部 judge;OGAR 则按最终结果把奖励路由到负责片段,抑制无效调用。该方法提升细粒度视觉问答中的工具使用效率与可靠性。

评分细项:rel 9.2 / nov 8.0 / prac 8.0 / author 6.0

4.MoDMixture of Debaters: Learn to Debate at Architectural Level in Multi-Agent Reasoning

评分8.5·方向cs.MA · Multiagent Systems ·arxiv2606.29425· PDF

💡 MoD 用双路由与动量切换把多智能体辩论压进 MoE 单模型,降低推理开销。

多智能体MoE推理加速

摘要:MoD 针对多智能体辩论框架架构固定、需复制多个模型导致开销高的问题,将自辩论机制融入单模型 Mixture-of-Experts。其关键包括双路由以动态分配辩论与综合流程、momentum switching 减少 token 级专家切换抖动,以及用轻量专家表示不同辩论角色。多模态基准实验显示,MoD 优于单模型和传统多智能体方法,延迟降低 3.7 倍,token 消耗减少 87%。

评分细项:rel 9.0 / nov 8.0 / prac 8.5 / author 7.0

5.FlashMorphMorphing into Hybrid Attention Models

评分8.2·方向cs.CL · Computation and Language ·arxiv2606.30562· PDF

💡 FlashMorph把混合注意力层选择建模为预算子集优化,用门控学习替换全注意力层。

长上下文注意力机制推理加速线性注意力

摘要:混合注意力模型通过保留少量 full-attention 层、将其余层替换为 linear attention 来提升长上下文效率,但层选择常依赖启发式。本文将其建模为预算约束的子集优化,提出 FlashMorph:为每层加入线性注意力分支,冻结权重,在合成长上下文检索数据上联合学习门控,并用正则鼓励线性化;再按预算离散化并蒸馏、微调。实验表明其能找到更优混合结构,保持长上下文召回与泛化能力。

评分细项:rel 8.5 / nov 8.0 / prac 8.0 / author 7.5

6.DOPDDOPD: Dual On-policy Distillation

评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2606.30626· PDF

💡 DOPD 按 advantage gap 与相对概率在 privileged teacher/student 间路由 token 级蒸馏。

后训练知识蒸馏On-policy

摘要:On-policy distillation 用学生采样轨迹和 token 级监督提升能力迁移,但引入 privileged information 可能造成“privilege illusion”:学生只能模仿信息不对称带来的表象,无法真正复制能力。DOPD 提出优势感知的双重蒸馏,根据 privileged teacher 与 privileged student 的 advantage gap 和相对概率,动态分配每个 token 的监督来源、强度与目标。LLM 与 VLM 实验显示,DOPD 稳定优于 Vanilla OPD 及其他方法,并在鲁棒性、持续学习等方面表现更好。

评分细项:rel 9.0 / nov 8.0 / prac 8.0 / author 6.0

7.WorldEvolverSelf-Evolving World Models for LLM Agent Planning

评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2606.30639· PDF

💡 WorldEvolver 用情景记忆、语义记忆与选择性 foresight 做 LLM agent 测试时世界模型修订。

LLM Agent世界模型测试时适应

摘要:WorldEvolver旨在提升长程 LLM agent 的规划前瞻性,同时避免不可靠预测误导决策。该框架在冻结下游 agent 和参数的情况下,于测试时自我修正上下文,结合 Episodic Memory、Semantic Memory 与 Selective Foresight,利用真实转移、启发规则和置信度过滤改进世界模型。ALFWorld、ScienceWorld 实验显示,其在多种 backbone 上预测精度最高,并提升 AgentBoard 成功率,证明测试时记忆修订能同时增强预测与规划。

评分细项:rel 8.5 / nov 7.5 / prac 8.0 / author 6.0

8.COHORTCOHORT: Collaborative Orchestration for Hardening via Offensive Replay on Emulated Topologies

评分8.0·方向cs.MA · Multiagent Systems ·arxiv2606.30479· PDF

💡 COHORT用多角色LLM在GNS3中生成设备命令,并用offensive replay验证缓解效果。

多智能体LLM工作流网络安全仿真验证

摘要:COHORT面向企业网络中针对已观测攻击者的自动化缓解生成,减少依赖专家和生产网试错。它采用角色分解的多 agent LLM 流程,在运行真实厂商固件的 GNS3 高保真仿真拓扑中提出、下发并迭代真实设备命令;通过 offensive replay 复现原攻击,对比缓解前后效果,并加入连通性回归与累积评估。三类拓扑、四种攻击实验中,46.7% 缓解既阻断攻击又保持连通性,显著优于基线。

评分细项:rel 8.5 / nov 7.5 / prac 8.5 / author 5.0

9.MASLabMAS-Lab: A Specification-Driven Validation Framework for Reliable Multi-Agent Systems

评分7.9·方向cs.MA · Multiagent Systems ·arxiv2606.30546· PDF

💡 MAS-Lab 用规范驱动框架分离语义意图、编排控制和可复现实验。

多智能体Agent工程系统验证

摘要:MAS-Lab 面向 LLM 多智能体系统从演示原型走向可靠生产的痛点:现有开发常将逻辑、编排、观测与控制耦合,缺乏系统级验证。该框架以 specification-driven 思路分离语义意图与运行机制,包含框架无关的声明式 Spec、提供执行与控制原语的 MAS-OS,以及集成观测和评估的 Labs,用于支持可复现实验、显式行为控制和全生命周期演进。

评分细项:rel 8.5 / nov 7.5 / prac 8.0 / author 5.0

10.PRPBefore Thinking, Learn to Decide: Proactive Routing for Efficient Visual Reasoning

评分7.8·方向cs.CL · Computation and Language ·arxiv2606.30217· PDF

💡 PRP 通过 DRL 与 JRL 预测 draft/target 能力,在视觉推理前提前路由到小模型或大模型。

推理加速视觉推理模型路由

摘要:针对大型多模态模型视觉推理中长 chain-of-thought 导致的高推理成本,论文提出 PRP 主动路由范式,在生成前判断查询应交给小 draft model 还是大 target model。方法通过 Draft Rating Learning 估计草稿模型置信度,并用 Joint Rating Learning 预测目标模型胜任度,从而按实例细粒度分配样本,在尽量保持性能的同时显著加速多模态推理。

评分细项:rel 8.0 / nov 7.5 / prac 8.0 / author 6.5


📚 速览 · 其他通过评估的工作(17 篇)

一句话扫读,按评分从高到低;点击标题跳转 arxiv。

  1. cs.MA7.8ECHO: Learning Epistemically Adaptive Language Agents with Turn-Level Credit· 💡 ECHO 将多轮信息搜寻建模为 EDP,并用 posterior-sensitive reward 做 turn-level policy gradient。

  2. cs.MA7.7Experience Graphs: The Data Foundation for Self-Improving Agents· 💡 Trellis把agent轨迹建成experience graph,用查询、向量图检索和物化视图复用经验。

  3. cs.AI8.0Dynamo: Dynamic Skill-Tool Evolution for Vision-Language Agents· 💡 Dynamo 让冻结 VLM 从成败样例生成 reasoning skill 与可执行视觉工具库,提升视觉推理准确率。

  4. cs.MA7.6Minority Sentinel: When to Overturn Majority Voting in Multi-Agent LLM Debates· 💡 Minority Sentinel 从多智能体辩论日志提取 fingerprint,用 LightGBM 判断何时推翻多数投票。

  5. cs.MA7.6Persona-Trained Monte Carlo: Estimating Market-Outcome Distributions via Swarms of Persona-Conditioned Neural Policy Bots in a Limit Order Book· 💡 PTMC 用 persona 条件化神经交易 bot 群在限价订单簿中采样市场结果分布。

  6. cs.CL7.2Regime-Aware Peer Specialization for Robust RAG under Heterogeneous Knowledge Conflicts· 💡 RAPS-DA 将 RAG 知识冲突分为 Grounding、Arbitration、Resistance,并用同尺度 peer 专家路由训练。

  7. cs.MA7.1Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds· 💡 用kNN局部置信下界在多轮LLM辩论中决定act-or-defer,并约束错误行动预算。

  8. cs.CV7.5EcoVideo: Entropy-Orchestrated Video Generation Paradigm in Cloud-Edge Dynamics· 💡 EcoVideo 用早期自注意力熵选择关键帧,云端 DiT 去噪、边缘插值重建视频。

  9. q-fin.TR7.6The Bounce Has No Direction: Sign, Magnitude, and the Microstructure of Equity Return Predictability· 💡 用 Fourier-Residue Identity 将 SPY 滞后自相关分解为符号与幅度通道。

  10. cs.CL6.8DAIN: Dynamic Agent-Based Interaction Network for Efficient and Collaborative Multimodal Reasoning· 💡 DAIN 用 Meta-Controller 稀疏调度专门交互 agent,并压缩通信完成多模态协作推理。

  11. cs.AI6.5Clarus: Coordinating Autonomous Research Agents toward Web-Scale Scientific Collaboration· 💡 Clarus用项目-智能体-资源对象模型和四层架构协调开放式科学协作流程。

  12. cs.CL6.4Efficient Retrieval-Augmented Generation via Token Co-occurrence Graphs· 💡 TIGRAG 用 token 共现图、语义扩展和神经重排检索多跳问答证据。

  13. cs.MA6.4Hybrid Retriever Evolution for Multimodal Document Reasoning Agents· 💡 用失败驱动meta-agent改写检索指令,让文档问答agent逐步选择词法、语义和多模态检索器。

  14. cs.AI6.6Entity Binding Failures in Tool-Augmented Agents· 💡 定义工具代理的 entity binding failure,并用置信门控、澄清与 provenance tracking 降低错实体操作。

  15. cs.CV6.6Orca: The World is in Your Mind· 💡 Orca用Next-State-Prediction在视频与事件标注上预训练统一世界潜空间。

  16. cs.CL6.0CORTEX: High-Quality Cross-Domain Organization of Web-Scale Corpora through Ontological Corpus Graph· 💡 用本体语料图组织网页语料,含质量层、轻量本体层和跨域对齐层。

  17. cs.AI6.3BayesEvolve: Explicit Belief States for Autonomous Scientific Discovery· 💡 BayesEvolve 为发现代理维护不确定性 belief state,并用退火 uncertainty bonus 指导黑盒优化实验。


数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考

http://www.jsqmd.com/news/1109635/

相关文章:

  • 无代码搭建本地自动化助手|OpenClaw 2.7.9 双系统实操实录
  • 打造系统化嵌入式学习路径:从入门到进阶的完整技术体系
  • MuleSoft企业级AI编排:安全可控的LLM工作流治理实践
  • 汇编语言实验二:求某数据区内负数的个数
  • 基于KMX63与STM32的智能手势识别系统设计
  • GPT-4参数量与稀疏激活原理深度解析
  • FFmpeg AES-CTR视频加密实战:从原理到代码实现
  • 打破语言壁垒:VRCT如何让VRChat国际交流变得简单自然
  • FRP内网穿透TLS安全加固实战:修复CVE-2016-2183漏洞
  • Java面试复习 Day 1
  • 如何用biliTickerBuy轻松搞定B站会员购抢票:新手完整教程
  • Beyond Compare密钥生成器风险与合法替代方案全解析
  • 基于Si4731与ARM Cortex-M4的嵌入式收音机系统开发
  • MKV42F256VLH16驱动WS2812灯带的嵌入式开发实践
  • 音乐爱好者的终极歌词管理方案:163MusicLyrics免费工具深度评测
  • windows上运行程序,提示 应用程序控制策略已阻止此文件,如何去除阻止
  • STM32F439ZG与MC6470 IMU的高精度运动控制实现
  • 长视频自动剪成短视频的 AI 工具实现原理与选型判断:从播客切片场景看处理链路
  • 终极RPA文件提取指南:5分钟学会提取Ren‘Py游戏资源
  • FanControl深度技术指南:5个专业级优化技巧解决Windows风扇控制难题
  • 3大字体系列+9种字重:Montserrat字体家族让设计新手也能轻松打造专业排版
  • SRWE终极指南:三步掌握游戏窗口实时编辑,轻松实现高清截图
  • STM32F407驱动RGB灯带的智能照明系统设计
  • 3分钟快速解密网易云音乐NCM文件:ncmdump让你的音乐重获自由播放权
  • 13DOF传感器与PIC18F65K40的嵌入式定位系统设计
  • Awesome ACG:二次元开发者工具集合
  • 3步掌握B站会员购自动化抢票:告别手速焦虑的终极解决方案
  • 发现一个紫微命盘详解,十二宫星曜解析,一生运势吉凶工具
  • DistilBERT+Triton实现高并发垃圾邮件实时检测
  • 生命涌现的小龙虾技能之【High-Risk Behavior Identification Analysis Tool | 高风险行为识别分析工具】简介