ICLR 2026 | Earth-Agent:地球科学智能体来了!
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【顶会/顶刊】投稿交流群
添加微信号:CVer2233,小助手拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!
转载自:遥感与深度学习、机器之心
题目:Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
会议:International Conference on Learning Representations (ICLR 2026)
论文:https://www.arxiv.org/abs/2509.23141
代码:https://github.com/opendatalab/Earth-Agent
项目:https://opendatalab.github.io/Earth-Agent/
年份:2026
单位:上海AI Lab,中山大学
创新点
首个统一多模态EO数据的智能体框架:Earth-Agent是首个将RGB图像、原始光谱数据(Spectrum)和地球产品数据(Products)统一在单一架构中的地球观测智能体系统,突破了现有MLLM仅支持RGB数据的限制。
基于MCP的结构化工具生态系统:构建了包含104个专业工具的预定义工具生态系统,组织为Index、Inversion、Perception、Analysis和Statistics五大工具包,支持复杂的多步骤科学分析和量化推理。
双层次评估协议:提出了同时评估推理轨迹(step-by-step)和最终结果(end-to-end)的双层评估体系,不仅关注答案准确性,还系统性地评估工具调用顺序、参数正确性等中间推理过程。
Earth-Bench基准数据集:构建了包含248个专家标注问题、13,729张图像的综合基准,每个问题平均需要5.4步推理,支持Auto-Planning和Instruction-Following两种查询模式,填补了跨模态、多步骤量化分析评估的空白。
与以往侧重于对单张或少量遥感影像进行描述(Captioning)、分类(Classification)或简单问答(VQA) 的基准不同的是,Earth-Bench 的核心在于评估智能体执行完整地球科学分析工作流的能力。
背景
地球观测(EO)在城市规划、农业、灾害监测等领域至关重要。近年来多模态大语言模型(MLLM)在遥感感知任务上取得进展,但面临显著局限:
只能处理 RGB 图像,面对光谱数据束手无策。
只能做少量的图片,无法胜任大规模遥感数据语料分析。
只能做简单问答,缺乏处理复杂、多步骤科学问题的能力。
囿于模型预训练所得的静态知识,无法调用成熟的专业工具与科学模型体系。
这些局限使得现有方法难以支持真实的地球科学工作流程,无法处理需要跨模态数据、大规模图像、多步骤推理和量化分析的复杂科学任务。因此,亟需一个能够统一处理多模态EO数据、集成结构化工具生态系统、支持复杂多步推理,并具备系统性双层评估机制的智能体框架。
数据
Earth-Bench基准数据集
核心数据规模
248个专家标注的问题
13,729张图像(平均每题55.4张,最多670张)
1,345个推理步骤(平均每题5.42步,最多19步)
三种数据模态
RGB 图像:用于场景分类、目标检测、变化检测等感知任务;
原始光谱数据:用于植被监测、温度反演、干旱评估等定量分析;
地球产品数据:用于城市扩张、水体变化、气象趋势等时空分析。
数据来源
Google Earth Engine、NASA EarthData和公开遥感数据集(AID、DIOR、DOTA等)
任务覆盖
14种代表性任务,从经典分类检测到复杂的时空量化分析
标注内容
每个问题包含:完整的Python解决方案、分步骤工具调用轨迹(JSON格式)、每步输入输出参数、最终答案
特点
首个同时支持跨模态数据、大规模图像处理、多步骤推理和量化分析的地球观测基准,并提供完整推理轨迹标注用于双层次评估。
以往的 Agent 基准测试陷入了 「唯结果论」 的陷阱,侧重于最终结果的准确性而忽视了对于 Agent 推理轨迹的评估。研究者认为 「怎么得出这个结论」 的过程和结论本身同样重要,因此邀请了一支由遥感专业研究生组成的专家小组针对 Earth-Bench 的每一个问题都进行逐步的解答求得最终结果。他们把每一步调用了什么工具、输入了什么参数、得到了什么中间结果,都完整地记录了下来。 这就形成了一条条标准的 「专家推理轨迹」。接着将专家推理轨迹纳入到了 step-by-step 评估,并将最终的答案和效率纳入到了结果的 end-to-end 评估。
方法
Earth-Agent方法框架
1. 整体架构
Earth-Agent采用ReAct推理范式,将地球观测任务建模为部分可观测马尔可夫决策过程(POMDP)。系统由LLM控制器作为决策核心,通过与结构化工具包交互来完成复杂的地球观测分析任务。
2. 四步操作循环
① 工具调用:根据任务目标和当前记忆选择最合适的工具执行
② 记忆更新:将工具调用和返回结果追加到记忆栈,保持完整交互历史
③ 推理思考:LLM分析更新后的记忆,规划下一步行动和工具配置
④ 执行动作:选择并执行下一个工具调用,循环继续直到任务完成
这个循环产生完整的工具调用轨迹和最终答案,确保推理过程可追溯可复现。
3. 五大工具包系统(104个专业工具)
基于模型上下文协议(MCP)构建,保证互操作性和可扩展性:
① Index工具包:实现NDVI、NDWI、NBR等常用地球观测指数,用于快速环境特征提取
② Inversion工具包:地球物理参数反演,包括地表温度、可降水量、植被含水量、海冰浓度等
③ Perception工具包:支持场景分类、目标检测、语义分割等视觉感知任务
④ Analysis工具包:时空推理分析,提供趋势检测、季节性分解、变化点分析、空间自相关等
⑤ Statistics工具包:大规模数据预处理和统计计算,支持批量操作、云掩膜、数据聚合等
4. 双层次评估协议
End-to-End评估(任务级)
Accuracy:评估最终答案的正确性
Efficiency:评估轨迹效率,对比专家解决方案的步骤数量
Step-by-Step评估(轨迹级)
Tools_any_order:检查是否使用了所有必需工具,不考虑顺序
Tools_in_order:评估工具调用是否按正确逻辑顺序执行
Tools_exact_match:最严格标准,要求与专家轨迹完全匹配
Parameters:验证每个工具的输入输出参数是否正确
5. 两种查询模式
Auto-Planning(自动规划):不在Query中提供步骤指导,评估智能体自主规划能力
Instruction-Following(指令遵循):在Query中提供步骤指导,评估智能体执行专家指令的能力
6. 核心技术优势
跨模态处理:通过工具调用统一处理RGB、光谱数据和地球产品,不受模态限制
多步骤推理:支持平均5.4步、最多19步的复杂分析流程
大规模处理:单任务可处理数百张图像,突破MLLM的输入限制
科学量化:超越定性描述,支持地球物理参数反演和时空统计分析
可扩展性:基于MCP的模块化设计,易于集成新工具和模型
可解释性:完整记录推理轨迹,每步工具调用可追溯验证
结果与精度
实验设置
评估多个闭源模型(GPT-5、Gemini-2.5等)和开源模型(DeepSeek-V3.1、Kimik2、Qwen3等)
核心结果
LLM对比:预训练支持工具调用的模型表现最佳。闭源模型最终准确率较高,但部分开源模型在工具使用轨迹上表现更优。精确工具匹配和参数执行是主要瓶颈。
发现1:预训练支持工具调用的模型表现更好(相比于没有进行工具调用进行预训练的模型)。闭源模型在end-to-end(任务级评估)的最终准确率更高,但DeepSeek-V3.1和Kimik2在step-by-step(推理级评估)工具使用的准确率更高
发现2:相比于自主规划模式,指令遵循模式提升工具调用准确性,但不一定提高最终准确率。
发现3:模型通常能识别正确的工具集合,但往往引入无关的步骤引起级联误差。工具的精确匹配和参数输入是执行地球观测数据分析的关键瓶颈。
vs 通用智能体:在Earth-Bench-Lite上,Earth-Agent在Spectrum、Products、RGB三种模态上均显著优于通用智能体(GPT-Agent、Manus等),后者缺乏领域工具支持。
vs MLLM:在分类、检测、分割任务上全面超越现有遥感大模型。现有MLLM缺乏跨任务泛化能力,Earth-Agent通过工具调用实现稳健性能。
示例:「利用 2022 年纽约市 Landsat 8 热成像和反射率数据,采用单通道方法基于 NDVI 和热波段 10 估算 LST,然后计算夏季和秋季的平均 LST,并确定平均差以评估这两个时期之间的季节性温度差值。A. 8.65K B. 10.89K C.12.42K D.14.75K。」可以看到,Earth-Bench 的题目不再局限于对于原始地球观测数据进行简单的一步即可完成的描述、分类、计数任务,而是强调利用地球科学的知识进行严格的指标计算和时空分析。
Earth-Agent 未来还有广阔的发展前景:
从基石到生态:Earth-Agent 只纳入了 104 个专业的地球科学工具 / 专家模型,这仅仅是一个起点。Earth-Agent 采用了 MCP 框架,可以非常方便地加入新的工具。研究者相信在开放社区的共同努力下,Earth-Agent 将成长为一个不断进化、日益强大的地球科学智能体。
从评估到训练:本篇工作验证了智能体路线在地球科学分析任务中的巨大潜力,而没有对 LLM 进行专门的训练或微调。研究者在附录中对于现阶段的 LLM 进行了详细的错误分析,发现智能体在与真实操作系统交互时,表现出严重的 「工具幻觉」 和 「文件幻觉」,它们会调用不存在的工具或试图处理根本不存在的文件。这为将来的训练路线提供指导。
从语言到视觉:当前 LLM 对于工具的选择依赖于模型的上下文和工具的描述,它局限在文本语义的 prompt 提示工程,随着 MLLM 的成熟,研究者预见下一个突破点:让具备视觉能力的模型作为智能体的核心,建立在视觉语义的工具感知可能成为突破地球观测数据分析的关键。
本文系学术转载,如有侵权,请联系CVer小助手删文
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!
CVPR 2026 所有论文和代码下载
在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
