当前位置: 首页 > news >正文

从 A2A 到 Sciverse:科学智能正在补上 Agent 最缺的一块地基

导语
2026 年上半年,AI Agent 的热点明显变了:行业不再只问“模型更强了吗”,而开始追问“Agent 能不能找到可信证据、能不能和别的 Agent 协作、能不能把科研流程跑通”。如果这个判断成立,那么 Sciverse 这类面向科学文献、结构化元数据与可引用证据的检索底座,正在从“好用的 RAG 工具”变成“科研 Agent 的基础设施”。

为什么现在值得关注

近几天和近几个月,至少有四个公开信号在指向同一件事:

  1. MCP 从社区协议走向主流平台接口。
    截至 2026 年 6 月 16 日,OpenAI 官方文档已把 “MCP and Connectors” 作为工具体系的一部分。含义很直接:工具调用不再只是 Agent 框架玩家的内部约定,而正在成为主流 API 产品层的标准能力。

  2. A2A 把“工具接入”继续推进到“Agent 之间协作”。
    A2A 官方站已经把自己定位为 agent-to-agent 的开放协议。MCP 解决“Agent 怎么调用工具”,A2A 解决“Agent 怎么彼此协作”。这意味着未来系统不只是一个大模型连很多工具,而是多个 Agent 共享任务、状态与结果。

  3. 科学 Agent 的评测开始变得更像真实科研。
    2026 年 6 月 10 日发布的 SciAgentArena 明确指出,当前 Agent 在结构清晰的数据分析任务上已有价值,但在开放式科研问题上仍然不稳定。这很关键,因为它把问题从“模型会不会推理”推进到了“系统有没有可靠证据与可验证流程”。

  4. 开放式多 Agent 科学发现开始出现可验证案例。
    2026 年 6 月 9 日发布的 EinsteinArena 展示了另一种趋势:Agent 不再只是在封闭 benchmark 里答题,而是在共享问题、共享讨论、共享验证器的环境里累积发现。换句话说,科研 Agent 未来更像“研究网络”,不是“单次问答器”。

一句话总结:
当 Agent 开始联网、协作、追求可复核结论时,数据底座的重要性会比模型参数增长得更快。

这正是 Sciverse 的切入点

如果把今天的科研 Agent 系统拆开看,大致有三层:

层级解决的问题代表能力Sciverse 的位置
协议层Agent 如何接工具、如何互相通信MCP、A2A不是替代协议,而是承接协议后的科学数据入口
执行层Agent 如何规划、调用、总结LLM、Agent runtime、workflow可作为被调用的科学检索与证据服务
数据层结果是否可信、可引用、可追溯检索、元数据、全文、资源附件Sciverse 的核心价值层

Sciverse 官网与集成文档给出的定位很清楚:它不是泛网页搜索,而是面向科学工作流的检索底座。公开信息显示,它至少覆盖了这样一组关键能力:

  • agentic-search:返回可引用的论文 chunk 与来源位置
  • meta-search:做结构化字段过滤、排序、freshness boosting
  • content/resource:读取全文与附件资源
  • meta-catalog:让 Agent 先理解字段 schema,再构造精准检索

这组能力的价值,不在于“又多一个搜索 API”,而在于它天然适合科研 Agent 的三类高频任务:

  • 先用meta-search找范围明确的论文集
  • 再用agentic-search找能被模型消费的证据片段
  • 最后用content回读上下文,避免只拿孤立句子下结论

金句:
科研 Agent 的护城河,最终不在“会不会说”,而在“能不能拿出证据”。

技术拆解:Sciverse 怎样嵌进科研 Agent

最实用的一种架构,不是让大模型直接回答科研问题,而是让模型只负责规划与归纳,把证据获取交给专门的数据层。

参考调用链

用户问题 -> Agent 任务规划 -> Sciverse meta-catalog(可选,先理解字段) -> Sciverse meta-search(先缩小论文候选集) -> Sciverse agentic-search(找可引用 chunk) -> Sciverse content(补全文上下文) -> 组装 Evidence Pack -> LLM 生成综述 / 筛选理由 / 研究方向 digest

这条链路和项目内现有 PRD 也一致:Sciverse 已经把“生成综述 / 筛选论文 / 跟踪方向”抽象成可复用工作流,而不是一次性页面搜索。

一个可直接改造的 Python 示例

下面这段代码不依赖私有 SDK,只使用公开 HTTP 接口;适合改造成你的 Agent tool、MCP server 后端,或评测脚本。

importosimportrequestsfromtypingimportAny BASE="https://api.sciverse.space"TOKEN=os.environ["SCIVERSE_API_TOKEN"]headers={"Authorization":f"Bearer{TOKEN}","Content-Type":"application/json",}defsemantic_search(query:str,top_k:int=5)->list[dict[str,Any]]:resp=requests.post(f"{BASE}/agentic-search",headers=headers,json={"query":query,"top_k":top_k,"source_types":["pdf","web"],"mode":"balanced",},timeout=60,)resp.raise_for_status()returnresp.json().get("results",[])defread_context(doc_id:str,offset:int,limit:int=3000)->dict[str,Any]:resp=requests.get(f"{BASE}/content",headers={"Authorization":f"Bearer{TOKEN}"},params={"doc_id":doc_id,"offset":offset,"limit":limit},timeout=60,)resp.raise_for_status()returnresp.json()query="What are recent methods for protein structure prediction?"hits=semantic_search(query)evidence_pack=[]forhitinhits[:3]:context=read_context(hit["doc_id"],hit.get("offset",0))evidence_pack.append({"title":hit.get("title"),"doc_id":hit.get("doc_id"),"chunk_id":hit.get("chunk_id"),"offset":hit.get("offset"),"score":hit.get("score"),"quote":hit.get("chunk"),"context_text":context.get("text","")[:1200],})foriteminevidence_pack:print(item["title"])print(item["doc_id"],item["offset"],item["score"])print(item["quote"][:200])print("-"*80)

这段代码最重要的不是“能跑通请求”,而是它演示了科研 Agent 的正确姿势:

  • 不让模型直接编造答案
  • 先拿 chunk,再回读上下文
  • 保留doc_id / chunk_id / offset / score
  • 把最终生成建立在 Evidence Pack 上

和普通 RAG 的差别,究竟在哪

方案优点短板更适合什么场景
纯模型直答快,接入简单易幻觉,难追溯头脑风暴、非严肃问答
通用网页 RAG覆盖广,更新快科学文献结构弱,引用不稳定科技资讯、行业情报
Sciverse 驱动的科学 RAG证据定位清晰,适合综述/筛选/引用仍需上层 Agent 做任务编排科研综述、论文筛选、科学问答、方向跟踪

金句:
不是所有 RAG 都能做科研,科研真正需要的是“可复核的检索”。

为什么这会是 Sciverse 的传播窗口

今天很多人都在谈 Agent,但真正能落地到科研场景的系统有一个共同门槛:要把“工具调用”升级成“证据工作流”。

Sciverse 恰好踩在这个交叉点上:

  • 对上,它能接进 Cursor、Claude、Codex 这类 Agent 使用场景
  • 对中,它把检索拆成结构化搜索、语义搜索、全文回读、资源读取几段
  • 对下,它承接的是科学文献与多模态科研资源,而不是泛内容网页

这意味着它的价值不只是“搜到论文”,而是让 Agent 有机会形成更像科研助手的闭环:

  1. 明确任务类型
  2. 选择搜索策略
  3. 保留来源与位置
  4. 回读上下文
  5. 再交给模型总结
  6. 最终输出带证据的综述、清单或研究方向 digest

从产品传播角度看,这比抽象地讲“AI for Science”更容易被理解,因为它非常具体:让 Agent 真正读懂科学世界。

评测与验证方案

本文未进行实测跑分。
下面只提供可复现实验设计,供团队或社区复核,不虚构吞吐、成本、准确率。

评测目标

比较三种方案在科研问答与综述任务中的可靠性:

  • A:纯大模型直答
  • B:通用网页搜索/RAG
  • C:Sciversemeta-search + agentic-search + content

任务集建议

选择 20 个问题,覆盖 4 类方向,每类 5 题:

  • 生命科学:蛋白功能、CRISPR、mRNA/LNP
  • 化学:retrosynthesis、催化、反应条件
  • 材料:固态电池、钙钛矿、碳捕获
  • AI for Science:protein design、scientific agent、citation grounding

指标建议

指标定义记录方式
Citation Grounding Rate输出中的关键结论是否能回溯到明确来源人审 +doc_id/offset检查
Context Completeness是否只引用了孤立片段,还是有上下文补全检查是否调用content
Hallucinated Citation Count是否出现伪造论文、年份、DOI人审对照真实文献
Retrieval RelevanceTop-K 检索结果是否与问题高度相关相关性打分 1-5
Workflow Reproducibility他人能否按同样步骤复现结果固定 prompt、参数、日志

调用步骤模板

  1. 固定问题集与模型版本
  2. 对三种方案使用同一批问题
  3. 对 Sciverse 方案保留完整 API 请求与响应摘要
  4. 输出统一 Markdown 报告
  5. 双人交叉审核引用真实性

记录模板

- Query: - System setup: - Retrieval path: - Top documents: - Evidence ids / doc_id / offset: - Final answer: - Verified citations: - Hallucination found?: - Reviewer notes:

事实核查清单

  • 文中关于 OpenAI 已支持 MCP/Connectors 的表述,依据官方 API 文档,截至2026 年 6 月 16 日访问核验。
  • 文中关于 SciAgentArena 的表述,依据 arXiv 页面,发布时间为2026 年 6 月 10 日
  • 文中关于 EinsteinArena 的表述,依据 arXiv 页面,发布时间为2026 年 6 月 9 日
  • 文中关于 Sciverse 能力拆解,依据 Sciverse 官网集成文档、公开 OpenAPI,以及项目内现有 demo/PRD。
  • 文中未声称任何未经实测的准确率、延迟、吞吐或成本数据。
  • llms.txt本轮未完成正文级校验;若要把其中内容写入正式对外稿,建议二次复核后补充。

结尾 CTA

如果你正在做科研 Agent、科学 RAG、文献综述助手,或者想把 Cursor / Claude / Codex 接进更可信的科学证据流,现在正是试 Sciverse 的窗口期。先从一个真实研究问题开始,把agentic-search + content跑通,再把meta-search和 Agent 工作流接上,你会比单纯堆模型更快看到产品差异。

http://www.jsqmd.com/news/1026445/

相关文章:

  • 【视频】世界杯足球高清比赛录像资源合集
  • 2026年免费技巧:3秒将PDF变成可修改的PowerPoint(含扫描件处理) - 时时资讯
  • 湖北省人社厅可查:2026武汉三新高级技工学校招生简章(23个专业目录),澄清网上3种误传 - 博客湾
  • 2026年免费详解:Excel转PDF表格不乱线,官方打印区域设置法 - 时时资讯
  • G-Helper 全面升级:华硕笔记本性能优化终极指南
  • 深入解析Freescale PME驱动与PMCI接口:Linux内核硬件加速模式匹配实战
  • 2026年高考志愿填报服务机构甄选:本土化与专业化并重的新趋势 - 优质品牌商家
  • 2026年气膜体育馆制造厂推荐指南:官方甄选六家实力企业深度评测 - 优质品牌商家
  • 2026年香港留学哪家机构最靠谱:十家优选深度解析 - 科技焦点
  • 2026 年柴油发电机组厂家综合实力推荐榜 专业评测与选型指南 - 资讯快报
  • 嵌入式系统启动与复位机制深度解析:以MSC8112为例
  • 告别手动刷新:当Python遇见大麦抢票
  • 2026年无人机外墙清洗和人工清洗哪个更安全-安全性与效率全面对比 - 观域传媒
  • 2026年学校教室空气治理推荐哪些机构-校园场景选型与服务商对比指南 - 华旭传媒
  • 2026 年 6 月佛山综合实力前五装修公司权威评测榜单 - 广东科技观察
  • 华硕笔记本性能优化神器G-Helper:10分钟打造极致体验
  • 深入Windows清单工具mt.exe:从一次Visual Studio编译错误(代码31)说起
  • 【官方警示】别被山寨简章骗了!武汉光谷科技职业技术学校2026年招生公告(官方唯一指定) - 博客湾
  • 2026年免费教程:不装软件,3种微信工具手把手给PDF加文字/图片水印 - 时时资讯
  • Ubuntu系统是否就是Linux系统,安装软件和Windows系统有何区别
  • 2026年美国留学申请好机构推荐:十家优选深度解析 - 科技焦点
  • Ubuntu包管理全解析:从APT、dpkg到PPA与故障排查
  • 深入解析MSC8112双核DSP架构:从内存层次到多核通信的工程实践
  • 实战避坑:在Hi3559V200上配置宽动态(WDR)时,为什么你的通道没数据输出?
  • NXP QorIQ平台SATA驱动配置、性能优化与实战问题排查指南
  • gibMacOS:如何直接从苹果服务器获取macOS安装组件?
  • 描述性统计如何支撑数据驱动决策:Python实战指南
  • 2026年免费测评:PDF转PPT还能编辑?官方方法与免费神器对比 - 时时资讯
  • 2026年 广东研磨液/研磨石与抛光加工十大品牌推荐:金属研磨液、不锈钢研磨液、棕刚玉研磨石及精密镜面抛光方案深度解析 - 品牌发掘
  • 长按交互设计:从原理到实现,打造高效更新体验