当前位置: 首页 > news >正文

滴滴多篇论文入选 ICML2026,值得一读!

近日,机器学习与人工智能领域国际顶会 ICML 2026 录用结果正式揭晓,滴滴共有五篇高质量学术成果被大会收录。本次中稿论文分别来自滴滴L Lab团队、滴滴网约车交易市场技术团队,与中山大学、香港科技大学(广州)、北京大学、上海财经大学等高校联合研发完成。未来,滴滴将继续深耕业务场景,让前沿探索与产业需求相互激发,与学界携手推动更多技术成果落地。

国际机器学习大会(International Conference on Machine Learning,简称 ICML)是机器学习领域最具影响力的顶级学术会议之一,同时也是中国计算机学会(CCF)推荐的 A 类国际学术会议。第 43 届 ICML 会议将于 2026 年 7 月 6 日-11 日在韩国首尔举行。本届 ICML 会议共收到 23918 份提交论文,其中 6352 篇论文被录用,526 篇被选为 Spotlight Paper。

中稿论文如下

(*排名不分先后):

论文一:

UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios

作者:Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, WenJie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen

研究团队:滴滴 L-Lab × 中山大学

研究方向:大模型智能体评估基准 / 长周期(Long-Horizon)任务推理、规划与工具使用

论文下载链接:https://arxiv.org/pdf/2509.21766

论文介绍:现有的自主智能体评估未能涵盖现实世界中那些需要持续推理、记忆管理和工具调用的长周期且部分可观察的复杂任务。为了填补这一空白,我们提出了一个全新的跨环境探索基准测试,其特点是具有极长的智能体交互轨迹、极高的Token消耗量和频繁的工具调用。

广泛的实验表明,当前最先进的智能体在这些任务中表现远不如人类,且无法通过简单的扩大规模来提升,其失败的主要原因在于上下文锁定(in-context locking)和基础能力的缺失。

论文二:Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution

作者:Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li, Yanming Li, Xuelin Zhang, Haotian Luo, Songyang Peng, He Cui, Tengfei Tian, Jun Fang, Hua Chai, Naiqiang Tan

研究团队:滴滴 L-Lab

研究方向:多模态大模型(MLLM)智能体 / GUI 自动化 / 自进化记忆系统

论文下载链接:https://arxiv.org/pdf/2601.22528

论文介绍:为了克服多模态大语言模型(MLLM)在复杂GUI自动化中的记忆与上下文限制,我们提出了达尔文记忆系统(DMS),该自进化架构利用效用驱动的“自然选择”机制来动态分解任务并淘汰次优策略。

通过将记忆构建为一个不断进化的生态系统,DMS在无需任何额外训练的情况下,显著提升了MLLM智能体的任务成功率、执行稳定性与效率。

论文三:HTAC: Hierarchical Task-Aware Composition for Continual Offline Reinforcement Learning

作者:Qiyang Zhou,Ruihang Xu,Peng Wang,Wenjie Lu,Xiaochun Cao,Naiqiang Tan,Li Shen

研究团队:滴滴 L-Lab × 中山大学

研究方向:持续离线强化学习(Continual Offline RL) / 跨任务知识迁移与隔离 / 层次化任务表示

论文介绍:为了克服持续离线强化学习(CORL)在任务异质性下的知识复用与隔离难题,我们提出了层次化任务感知组合方法(HTAC),该方法通过双层任务编码与软组合机制,将任务解耦为域级与任务级嵌入,并借助按需创建的专家网络与注意力式知识整合实现参数高效的知识隔离与复用。在离线持续世界基准上,HTAC兼顾了可塑性与稳定性,显著提升了智能体的跨任务泛化与知识迁移能力。

论文四:Agent-Omit: Adaptive Context Omission for Efficient LLM Agents

作者:Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu

研究团队:滴滴 L-Lab × 香港科技大学(广州)

研究方向:大语言模型智能体

论文下载链接:https://arxiv.org/pdf/2602.04284v2

论文介绍:本文提出Agent-Omit框架,用于提升大语言模型智能体在多轮交互中的执行效率。现有方法通常对思考过程与环境观察进行统一压缩,未考虑不同交互轮次的效用差异。

本文通过定量分析证实,智能体在交互中间轮次产生的思考与观察信息存在大量冗余,可在不降低任务效果的前提下安全省略。Agent-Omit 采用两阶段训练:先基于冷启动数据微调,让模型掌握省略行为规范;再通过省略感知的智能体强化学习,结合双采样机制与专属奖励,实现自适应省略冗余内容。

理论分析表明,该省略策略的偏差受 KL 散度上界约束。在五大智能体基准测试中,Agent-Omit-8B 性能比肩前沿大模型,且显著降低 token 开销,实现效果与效率的最优平衡。

论文五:Feasible Fusion: Constrained Joint Estimation under Structural Non-Overlap(结构性重叠缺失下带约束的联合估计范式)

作者:Yuxi Du, Zhiheng Zhang, Haoxuan Li, Cong Fang, Jixing Xu, Zhen Peng, Jiecheng Guo

研究团队:滴滴网约车交易市场技术 × 北京大学、上海财经大学

研究方向:因果推断

论文下载链接:https://arxiv.org/pdf/2602.22612

论文介绍:现代大规模营销场景中因果推断正面临日益严峻的挑战,这些挑战包括高维协变量(high-dimensional covariates)、多值处理(multi-valued)、大规模观察性数据,以及由于成本约束而数量有限的随机对照试验样本。

本文对由处理机制诱发的结构性非重叠进行了形式化刻画,并证明:在这一情形下,常用的加权融合方法在理论上无法满足随机化识别约束。为应对这一问题,本文提出了一种受约束的联合估计框架:在最小化观察数据风险的同时,通过正交的实验矩条件来保证因果有效性。进一步地,我们表明,结构性非重叠会在原始协变量空间中对矩约束的施加构成一种可行性障碍。在方法上,本文推导出一种带惩罚项的原始—对偶算法,用于联合学习表征与预测器,并将误差分解为重叠恢复误差、矩违背误差以及统计误差三部分。

大量合成实验表明,该方法在不同程度的非重叠情形下均表现出稳健性能。与此同时,在一个滴滴大规模网约车应用场景中的实验进一步显示,本文方法相较于现有基线方法取得了显著提升,其效果可与使用显著更多 RCT 数据训练得到的模型相仿。

- End -

http://www.jsqmd.com/news/871940/

相关文章:

  • 戴森球计划终极蓝图库:新手3步打造高效自动化工厂的完整指南
  • 在Python中快速接入Taotoken实现多模型调用,告别单一模型依赖
  • 个人博客第十天
  • 初步认识假设检验
  • 2026 天津学历提升机构实力排行榜:成考 + 自考双轨测评,5 大梯队全解析 - 商业科技观察
  • FileBrowser技术解析:构建轻量级Web文件管理系统的架构与实践
  • 如何快速免费检测微信单向好友:告别隐形删除的终极指南
  • 终极指南:5步将你的小爱音箱改造成AI语音助手
  • 2026 北京学历提升机构实力排行榜:成考 + 自考双轨测评,5 大梯队全解析 - 商业科技观察
  • 2026年贵阳室内装修全案设计深度横评:从毛坯到拎包入住的完整避坑指南 - 优质企业观察收录
  • 深度解析:从硬件CAS指令到vLLM,如何设计AI推理服务的高性能无锁队列?
  • FTP明文传输风险与Wireshark抓包实证分析
  • Windows苹果触控板完美解决方案:mac-precision-touchpad完整使用指南
  • 2026年贵阳中高端室内全案设计与精装整装深度横评:从毛坯到拎包入住的完整避坑指南 - 优质企业观察收录
  • Taotoken 助力初创团队低成本管理多个 AI 模型 API 密钥
  • 初次使用taotoken模型广场为不同任务选择合适大模型的实践指南
  • 2026年贵阳室内装修设计深度横评:从中高端全案设计到新房精装定制的完整避坑指南 - 优质企业观察收录
  • 【人类认知对齐白皮书】:Claude的4层思维跃迁机制(含可复现prompt工程模板)
  • AI写论文不用愁!4款AI论文生成工具,轻松开启论文写作之旅!
  • LivePortrait技术突破:企业级肖像动画生成与部署实战指南
  • 【AI知识管理教育落地实战指南】:20年教育技术专家亲授5大不可绕过的AI知识图谱构建陷阱与破局公式
  • 四川CPA培训行业深度测评报告(2026):从合规资质到实操就业,五大权威机构排名 - damaigeo
  • Taotoken的计费透明性如何让个人开发者更放心地使用API
  • PHP逆向工程实战:OPCODE、扩展源码与系统调用三阶穿透
  • 使用Taotoken稳定调用Claude模型解决编程助手频繁封号难题
  • 游戏化AI教学:用战舰对战重构强化学习认知路径
  • 多模态AI Agent协同架构:从单体模型到专业分工的工程实践
  • 观察使用Taotoken后月度账单的明细与可预测性变化
  • 教师必备:七步法教你用AI写出高质量论文 - AI论文先行者
  • 2026年GEO优化服务商选择指南:拒绝模糊承诺锁定量化效果