当前位置: 首页 > news >正文

阿里云AgenticSearch登顶GAIA Agent榜单Top1!

背景介绍

AI Agent:从被动响应到主动执行

随着大语言模型(LLM)能力的跃升,AI系统经历从被动响应到主动执行的根本性转变。智能体(Agent)作为这一转变的核心载体,能够自主感知环境、分解复杂目标、调用外部工具并持续迭代行动,将单次推理扩展为端到端的任务完成能力,使AI首次具备独立处理多步骤、跨系统、长周期任务的潜力。2026年成为了Agent真正落地的一年。

然而,在Agent价值规模化落地的过程中,仍面临严峻挑战:

  • 幻觉传导:错误信息在多步骤执行中被放大

  • 任务失败率高:复杂任务中途失败导致前功尽弃

  • 长程任务一致性难保证:执行过程中"目标漂移"现象普遍

  • 工具调用可靠性不足:外部工具集成缺乏统一标准

GAIA:Agent能力的"试金石"

GAIA(General AI Assistants Benchmark)是由Meta AI、Hugging Face等顶级研究机构联合推出的通用AI助手评估基准,被业界公认为衡量Agent综合能力的权威标准。GAIA包含466道涵盖推理、多模态处理、网页浏览、工具使用等真实场景的题目,其中300道私有测试题用于构建全球Leaderboard。

GAIA的难度体现在:

  • 需要多步骤推理和复杂规划能力

  • 涉及真实世界的信息检索和验证

  • 要求准确的工具调用和结果整合

  • GPT-4在GAIA上的平均得分不超过30%

  • 人类专家水平为92%

登顶时刻

历史性突破:首次达到人类水平

阿里云AI搜索团队发布全新企业级智能体框架Ops-Agentic-Search,以92.36%的准确率登顶通用Agent能力测试权威榜单GAIA,首次达到人类水平!

榜单链接:https://huggingface.co/spaces/gaia-benchmark/leaderboard

这一成绩标志着阿里云在AI Agent领域实现了从"跟跑"到"领跑"的跨越,不仅超越了Manus、OpenAI Deep Research等明星产品,更首次将Agent能力推进到人类专家水平,为AI Agent的规模化应用奠定了坚实基础。

核心技术优势

Ops-Agentic-Search是阿里云OpenSearch团队打造的企业级智能体框架,深度融合OpenSearch强大的搜索能力,构建了涵盖任务理解、动态规划、工具执行、反馈迭代、评估验证的端到端推理闭环。

框架能力概览

核心能力矩阵:

能力维度内置支持说明
多模态理解✅ 原生支持文档/图片/视频/语音全模态处理
浏览器自动化✅ BrowserUse自主网页浏览与信息提取
代码执行✅ CodeAgentPython/Shell代码生成与执行
文件操作✅ 内置本地文件读写与处理
MCP协议✅ 兼容支持MCP Server生态接入
Skills体系✅ 自进化自动提炼与进化可复用技能

1. 全局动态规划(Plan-with-Files)

采用创新的plan_with_files机制,将任务规划过程、中间结果、执行状态显式文件化,实现规划与执行的深度解耦。

能力特性技术实现业务价值
突破上下文窗口限制计划与中间结果外置到文件解耦任务长度与上下文长度,支持超长复杂任务
增强任务执行一致性Agent每次行动前reload plan确保每一步对齐最初目标,避免"目标漂移"
支持动态更新与自我修正步骤失败触发计划重排实现自适应执行,提升复杂任务成功率
可观测与可解释性文件形式留存执行轨迹每一步的目标、结果、状态均有据可查
天然支持断点续传从文件恢复执行状态任务中断后无需从头开始,提升稳定性

2. 自我反思机制(Reflection)

在执行过程中对自身的输出、行为或推理过程进行自我评估和迭代改进,实现质量的持续收敛。

核心机制:

执行输出 → 交叉验证 → 错误识别 → 策略调整 → 重新执行 ↑___________________________________________↓
能力特性实现效果
迭代式质量收敛多轮自我评估与错误修正,输出质量逐步逼近最优解
幻觉主动抑制对自身输出进行交叉式验证,降低模型过度自信导致的事实偏差
长链任务稳定性阶段性校准防止误差在多步骤执行中累积放大
策略动态自适应依据中间反馈实时调整执行路径,避免局部"死"循环
会话内经验复用将失败信息结构化存入短期记忆,指导后续决策优化

3. 动态上下文管理

在信息完整性、推理连贯性与资源效率之间实现最优平衡,让Agent以最精准的信息视野驱动推理。

双策略协同:

策略机制适用场景
Summary策略语义级动态压缩,保留关键推理节点,将冗余内容转化为语义摘要长对话历史、多轮推理链路
Discard策略基于时效性/相关度/依赖性多维度评估,动态淘汰低优先级内容上下文窗口满载、信息过载

4. 自进化Skills体系

赋予智能体自我学习与持续进化的能力,实现从"单次执行"到"经验沉淀"的跃迁。

Skills生命周期:

能力特性说明
Skills自动提炼无需人工干预,从多条推理路径中归纳抽象,提炼出可复用的结构化Skills
Skills自进化机制形成「执行 → 提炼 → 应用 → 再提炼」闭环,驱动技能质量螺旋式跃升
Skills驱动推理加速面对同类任务,已有Skills直接参与后续推理路径生成,跳过重复探索

应用场景与案例

典型应用场景

场景描述效果
企业知识问答基于企业内部文档库的智能问答回答准确率提升至92%+
市场研究报告生成自动收集、分析、整合多源信息研究效率提升10倍+
代码辅助开发理解需求、生成代码、调试优化开发效率提升50%+
数据分析报告自动提取数据、生成可视化图表报告生成时间从天级降至分钟级
客户服务自动化理解用户问题、查询知识库、给出解答问题解决率提升至90%+

案例:复杂研究任务执行

任务:“分析2025年全球AI Agent市场格局,包括主要厂商、技术路线、市场份额,并预测未来3年发展趋势”

执行过程:

Step 1: 任务分解 ├── 子任务1: 收集2025年AI Agent市场主要厂商信息 ├── 子任务2: 分析各厂商技术路线差异 ├── 子任务3: 获取市场份额数据 └── 子任务4: 预测未来3年发展趋势 Step 2: 信息收集(并行执行) ├── 搜索权威市场报告(Gartner/IDC等) ├── 浏览厂商官网获取产品信息 ├── 检索学术论文和技术博客 └── 分析开源社区活跃度 Step 3: 信息整合与分析 ├── 交叉验证多源数据 ├── 识别关键趋势和模式 └── 生成结构化分析报告 Step 4: 报告生成 ├── 撰写执行摘要 ├── 生成详细分析章节 ├── 制作对比表格和图表 └── 输出最终研究报

执行结果:

  • 自动完成20+次网页浏览

  • 整合15+份权威报告

  • 生成包含图表的完整研究报告

  • 总耗时:5分钟内

AgenticSearch产品介绍

AgenticSearch是阿里云OpenSearch推出的AI搜索新范式,以智能体(Agent)为核心,融合深度检索、多步推理、工具调用与多模态理解,实现从"被动响应"到"主动执行"的跃迁。

产品核心能力

能力说明
深度检索Multi-Agent协同的递进式信息检索
任务执行支持复杂多步骤任务的端到端执行
工具调用内置浏览器、代码执行、文件操作等工具
多模态理解支持文档、图片、视频、语音全模态处理
知识库集成无缝对接企业知识库和OpenSearch索引
结果验证自动验证信息准确性和来源可靠性

快速体验

  • 产品介绍文档:https://developer.aliyun.com/article/1708935

  • 立即体验:https://opensearch.console.aliyun.com/cn-shanghai/rag/agentic-search

总结与展望

Ops-Agentic-Search首次登顶GAIA榜单Top1,不仅是阿里云AI技术实力的体现,更是AI Agent领域的重要里程碑。我们首次将Agent能力推进到人类专家水平(92.36%),为AI Agent的规模化企业应用奠定了坚实基础。

技术贡献

  • 开源贡献:核心技术将逐步开源,推动行业共同进步

  • 标准制定:积极参与MCP等Agent协议标准的制定

  • 生态建设:与百炼、钉钉等阿里云产品深度集成,构建完整Agent生态

关于阿里云OpenSearch

阿里云OpenSearch是阿里巴巴集团旗下的一站式AI搜索服务平台,为企业提供智能搜索、向量检索、AI Agent等全栈AI智能搜索能力。服务覆盖电商、内容、游戏、教育等多个行业,助力企业构建面向AI时代的AI智能搜索体验。

  • 产品咨询:阿里云OpenSearch官网

  • 技术支持:AgenticSearch-AI搜索交流群

  • 榜单详情:GAIA Leaderboard

本文作者:阿里云计算平台 AI搜索团队出品,转载请注明出处。

http://www.jsqmd.com/news/584197/

相关文章:

  • SpringBoot + Ollama + Qdrant + DeepSeek:从零构建企业级本地知识库问答系统
  • OpenClaw隐私保护方案:Qwen3.5-9B本地处理医疗图片的10个细节
  • 基于C++实现亚马逊棋
  • OpenClaw网页自动化:Qwen3.5-9B实现无头浏览器智能操作
  • OpenClaw自动化测试:百川2-13B-4bits量化模型驱动UI操作验证
  • 从空调到电动车:拆解NTC和PTC热敏电阻在你身边电子产品里的‘隐藏任务’
  • ClickHouse中ReplicatedMergeTree与ReplacingMergeTree表引擎的去重机制深度对比
  • 基于深度学习的轴承缺陷检测系统(YOLO12/11/v8/v5模型+django)o(源码+lw+部署文档+讲解等)
  • 从VGG到ResNet:手把手教你用CAM给不同CNN架构‘拍X光片’(附代码对比)
  • 深入解析AdaptiveAvgPool2d:从原理到实践
  • OpenClaw监控面板:实时查看Kimi-VL-A3B-Thinking资源占用情况
  • BurpSuite插件fakeIP安装避坑指南:解决Jython环境配置与Python脚本加载问题
  • 用IDM抓取网页动态资源
  • OpenClaw自动化周报生成:Qwen2.5-VL-7B分析工作截图产出周总结
  • OpenClaw+Phi-3-mini-128k-instruct学术助手:文献综述自动生成
  • SAP BASIS手记:从零搞定SMTP邮件服务器配置(SCOT/SICF/SU01保姆级流程)
  • 别再死记硬背了!用Python脚本帮你快速掌握RSA、AES、Diffie-Hellman等核心加密算法
  • OpenClaw任务链设计:Qwen3-14b_int4_awq模型多步骤执行
  • Windows效率翻倍!这些隐藏的Win+R命令和CMD技巧你用过几个?
  • LeetCode 二叉搜索树双神题通关!有序数组转平衡 BST + 验证 BST,小白递归一把梭
  • 2026年比较好的纯三层实木拼花地板深度厂家推荐 - 品牌宣传支持者
  • OpenClaw技能开发指南:为SecGPT-14B定制专属安全检测模块
  • Unity Package Manager从入门到精通:除了导入Asset Store,你还能这样玩转自定义插件
  • OpenClaw极简配置:Gemma-3-12b-it单文件部署方案(无需Node环境)
  • 机器学习(1)快速搭建Pytorch开发环境
  • 从传统部署到云原生的迁移策略
  • 2.5MW ANPC拓扑储能变流器PCS整流器仿真搭建之旅
  • 机械键盘防抖优化指南:提升输入稳定性的完整解决方案
  • LLCOM串口调试工具:Lua脚本驱动的自动化实践
  • 保姆级教程:在Vitis HLS 2022.2中配置Vision库和OpenCV 4.4.0(附完整编译参数)