当前位置：首页 > news >正文

Agentic AI可靠性工程实践，确定性工具与探索性Agent的平衡

news 2026/7/5 16:22:21

Erickson认为，当我们将代理式AI视为真实运营系统之上的一个抽象层，而不是完全替代这些系统时，它才会变得真正有价值。模型可以理解问题、检索证据、分类情况并提出行动建议，而确定性系统则负责执行操作、强制执行约束，并提供使整个循环能够被评估的遥测数据。

在2025年QCon AI纽约大会上，Aaron Erickson提出了一个颠覆性的观点：代理式AI（Agentic AI）本质上是一个工程问题，而非提示词技巧的练习。

他的核心观点是，系统的可靠性来自于将概率性组件与确定性边界相结合。

代理式AI作为系统层，而非替代品

Erickson认为，当我们将代理式AI视为真实运营系统之上的一个抽象层，而不是完全替代这些系统时，它才会变得真正有价值。

模型可以理解问题、检索证据、分类情况并提出行动建议，而确定性系统则负责执行操作、强制执行约束，并提供使整个循环能够被评估的遥测数据。

自然语言到SQL的常见陷阱

Erickson描述了一个在自然语言转SQL以及类似查询生成模式中的常见陷阱。

最初的几个演示之所以能够成功，是因为问题简单且数据库模式较小。但当模式变得复杂，查询空间包含大量连接、边缘情况或重载字段时，准确性会急剧下降。

他强调的一个缓解策略是减少自由度：扁平化模式、约束查询形式，并将表达能力视为必须通过更多评估和额外保障措施来支付的成本。

分类与代码生成的关键差异

Erickson还观察到了分类任务和代码生成之间的实用差异。

当系统的任务是从一小组已知类别中进行选择时，模型可以非常有效。但当系统的任务是在一个巨大的搜索空间中发明任意程序时，错误率会攀升。

这个差距成为了一个设计杠杆：你可以让模型先对意图进行分类，然后路由到确定性查询模板或有界工具调用。

工具选择本身就是可靠性问题

Erickson展示了一张包含大量芝士蛋糕菜单的幻灯片，用以说明工具选择本身就是一个可靠性问题。

"大语言模型可能遭受'选择悖论'"

当太多工具看起来相似时，选择质量会下降，模型可能会自信地选择一个次优或不安全的路径。

工程上的启示是，工具目录和工具接口是产品的一部分。

工具应该具有差异化、描述清晰且受到约束，否则Agent会表现得像一个盯着巨大菜单的用户，Erickson说道。

角色专业化的重要性

Erickson随后阐述了为什么角色专业化很重要。

一个"对一切都略知一二"的通用Agent可能在路由和摘要方面很有帮助，但系统的正确性取决于为特定任务构建的、具有狭窄契约的专用组件。

他描述了一个类似管理层的委托层，但将其视为编排层，而不是领域逻辑应该存在的地方。在他看来，重要的工作在于实际接触底层系统的专用Agent和确定性工具。

Agent行为分类体系

这引出了他对Agent行为的分类体系。

最具体的例子之一是"Worker Agent"幻灯片，展示了一个人在石头上画螺旋，配以提示词来检查大量集群并标记值得关注的集群。

他认为Agent可以部署在数千条相似记录上，重复执行相同的分析，并存储结构化输出以供后续审查。

他描述了随着系统增长而帮助控制复杂性的其他角色：

•工具选择Agent：当有多种方式实现结果时，可以帮助减少歧义

•观察者或咨询式Agent：可以监控组件之间的交互，标记不安全的通信模式、策略违规或质量回归

•导演Agent：可以在其他Agent之间委托工作，并跟踪朝着可衡量结果的进展

这个信息反映了经典的测试指导原则：尽可能将信心推入测试中，并保留完整系统运行以验证集成行为。

确定性锚点的必要性

Erickson还使用了一个简单的运营类比来证明确定性锚点的必要性。

他问：你是否每次都重新发明常规操作？

答案是：你不会。你会为操作员提供确定性的运行手册。

他认为代理式系统应该继承这个习惯。在可重复性重要的地方，将可重复性编码到工具和运行手册中，让Agent决定何时应用运行手册，而不是允许Agent为每个事件发明新流程。

确定性与发现之间的平衡

最后，Erickson回到了确定性和发现之间的分割。发现是Agent探索、提出和发现异常的地方。

确定性是确定性工具执行有界操作并执行策略的地方。

他认为，两者之间的边界就是平台工程所在之处：身份验证、授权、审计、遥测和安全降级。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

查看全文

http://www.jsqmd.com/news/134551/

点财网:您身边专业、全面的财经信息与理财决策伙伴 - 资讯焦点

Open-AutoGLM无法接入微信？5大核心技术瓶颈全解析

人形机器人商业化破局！现代汽车CES2026首秀Atlas，AI机器人战略重构制造业生态

2025-2026北京顺义企业厂房拆迁律所 TOP5榜单：补偿提升实战派机构推荐 - 老周说教育

-2025.12.10

会话记忆

学长亲荐8个AI论文软件，专科生毕业论文格式规范全搞定！

十分钟科普RAG技术：搜索+生成=更聪明的大模型系统

1-D 和 2-D 系统事件触发控制指导

Open-AutoGLM缺失微信支持的影响（关键场景下的功能鸿沟分析）

AI模型打通微信有多难？Open-AutoGLM缺失社交能力引发的思考

【Open-AutoGLM跨界实战】：用AI大模型自动玩转梦幻西游的5个关键技术突破

-2025.12.11

Open-AutoGLM能打通梦幻西游吗？揭秘AI代理在回合制游戏中的自主决策路径

AI打游戏不再幻想：Open-AutoGLM实现梦幻西游自动任务（实测已跑通10小时）

MCU+AT，必将让位于OpenCPU【全篇完结】

第3章：复习篇——第4节：创建、管理视图与索引

高温/实验室专用：国产气氛马弗炉品牌推荐与型号匹配指南 - 品牌推荐大师

【独家】Open-AutoGLM源码泄露了什么？图学习自动化的新一代标准已成型？

不连微信的AI系统还能用吗？Open-AutoGLM的隔离困境与破局之道

AI Agent（智能体）构建指南：何时该用？模式又该如何选择？

手把手教你用Open-AutoGLM点咖啡，打造专属AI咖啡助手

2025年12月江苏宿迁公交候车亭及站台设施厂家最新推荐：江苏源泰智能、不锈钢候车亭、铝型材候车亭、镀锌钢候车亭、智慧公交站台、城市交通新亮点 - 海棠依旧大

不服跑个分？快速上手iperf网络性能测试

8个降AI率工具推荐！本科生高效降aigc指南

【收藏】Agentic RAG实战：让大模型不只回答问题，更能解决问题

LFM2-Audio-1.5B：15亿参数端到端语音大模型发布

-2025.12.12

Open-AutoGLM是否需root？一文看懂容器化环境下的权限最佳实践

代理式AI作为系统层，而非替代品

自然语言到SQL的常见陷阱

分类与代码生成的关键差异

工具选择本身就是可靠性问题

角色专业化的重要性

Agent行为分类体系

确定性锚点的必要性

确定性与发现之间的平衡

相关文章：