当前位置: 首页 > news >正文

Agent Runtime 归零时代:Harness、Event Log 与 Sandbox 架构解析

1. 这不是新赛道,而是 runtime 层的“操作系统时刻”正在重演

你点开这篇文字,大概率是因为标题里那个刺眼的“Zero”——不是零错误,不是零延迟,而是“走向归零”的零。它指向的不是技术失败,而是一种更残酷的产业规律:当某个基础设施层被足够多玩家以足够高效率实现时,它的经济价值就会像被抽走空气的气球一样,迅速塌缩至接近零。Anthropic 在 2026 年 4 月 8 日发布的 Claude Managed Agents,表面看是一次光鲜的公测,背后却是一场早已打响、且胜负手已基本落定的战役。它不是在开辟无人区,而是在一片已被 AWS、Google、Microsoft 用云资源和 SDK 填满的战场上,插下一面写着“Claude 专属”的旗子。这面旗很结实,旗杆是扎实的工程能力,旗面印着“session-as-event-log”和“credential-isolation”这些真正解决过痛的术语。但问题在于,旗子再漂亮,也改变不了这片土地正被快速均质化的事实。

我去年亲手搭过一个跨小时级的金融数据核查 agent,系统设计之初就犯了所有新手都会犯的错:把 session state 全塞进模型 context window 里。结果呢?第 37 分钟,当 agent 正在比对第七家上市公司的财报附注与主表勾稽关系时,context 突然满了。模型没报错,没中断,它只是“安静地”把最早调用的 SEC 数据 API 返回值从记忆里抹掉,然后基于一个残缺的、只有后半段数据的历史,开始编造前半段的逻辑推导。我们直到生成的最终报告里出现一家根本不存在的“子公司”才意识到不对。回溯?没有日志。重放?没有快照。整个 session 就像一滴水蒸发在沙漠里,连水渍都没留下。那周我们团队熬了三个通宵,把 state 拆出来,存进 Redis,用 UUID 关联每一次 tool call,给每个步骤打上时间戳和输入输出哈希。做完那一刻我才真正懂了 Anthropic 工程博客里那句“Session as durable event log living outside the model context”不是修辞,是血泪教训凝结成的架构信条。它解决的不是“能不能跑”,而是“跑崩了之后,你还能不能活下来”。这个“活下来”的能力,现在正被 AWS AgentCore、Vertex AI Agent Builder、Azure AI Foundry 用几乎相同的抽象语言复刻——微虚拟机(microVM)、独立文件系统、八小时会话上限、框架无关的 request-response 接口。它们不是在模仿 Anthropic,而是在共同确认:这就是 runtime 层该有的样子。所以,当媒体说“Anthropic 定义了新范式”,我听到的其实是“整个行业终于就座,准备一起吃这顿名为‘托管 agent 运行时’的自助餐”。而自助餐的终极形态,就是价格趋近于零。

2. 架构解剖:为什么“Harness + Session Log + Sandbox”是唯一合理的解法

2.1 Harness:无状态执行器的必然性

先说最核心的“Harness”。Anthropic 的定义非常干净:一个 stateless executor,只做一件事——execute(name, input) → string。这个名字本身就很说明问题。“Harness” 是马具,是约束,是引导力量的装置,而不是力量的来源。它不存储任何关于“这个 agent 刚才做了什么”的信息,它只负责把用户指定的工具名(比如search_financial_news)和输入参数(比如{"ticker": "AAPL", "date_range": "last_7_days"})打包,扔进一个隔离环境,然后等结果。这种设计不是为了炫技,而是为了解决一个根本矛盾:LLM 的推理过程是高度动态、不可预测的,而生产环境的稳定性要求是刚性的。如果 Harness 自己维护状态,它就必须处理并发、锁、超时、重试、崩溃恢复……每一个环节都可能成为单点故障。而把它变成无状态,就把所有复杂性推给了外部系统——state 存在哪儿?Redis、PostgreSQL、还是专用的 trace store?由你选。崩溃了怎么办?重新调用awake(sessionId),Harness 会从 event log 里捞出最后一条记录,知道该从哪一步继续。这就像把一辆车的发动机(模型推理)和变速箱(Harness)彻底解耦,发动机可以是 Claude、Llama 还是 Gemini,只要接口一致,变速箱就能无缝换挡。我实测过,把同一个 LangGraph 流程图,从本地 Ollama 部署切换到 Anthropic Managed Agents,只需要改三行代码:把llm.invoke()替换成anthropic_client.execute("tool_name", input),再把State类的序列化逻辑对接到他们的 event log API。整个迁移过程不到两小时,没有一次 context 溢出,没有一次 credential 泄露。这种“可拔插”的自由度,正是无状态 Harness 赋予开发者的最大红利。

2.2 Session-as-Event-Log:从“内存快照”到“司法证据”的跃迁

如果说 Harness 是执行的骨架,那么 Session-as-Event-Log 就是它的神经系统和记忆中枢。Anthropic 把 session 拆解成了一条条不可变的、带时间戳的事件流:[EVENT_START],[TOOL_CALL: search_financial_news, input: {...}],[TOOL_RESULT: {"articles": [...]}, status: success],[MODEL_OUTPUT: "Based on the news..."],[EVENT_END]。这条日志不存于模型的 context 里,而是持久化在 Anthropic 的后端数据库中,独立于任何一次请求。这带来的好处是颠覆性的。第一,调试成本断崖式下降。以前 agent 出错,你得靠猜:是 prompt 写错了?是 tool 返回了脏数据?还是模型自己胡说了?现在,你直接打开日志,按时间轴往下拉,看到TOOL_RESULT里返回的是一堆 HTML 标签而不是 JSON,立刻锁定是前端解析器的问题,跟模型无关。第二,合规与审计成为可能。金融、医疗行业的客户最怕什么?不是 agent 慢,而是“它到底干了什么,我说不清楚”。现在,每一份 agent 生成的投研报告,背后都对应着一条完整的、可验证的 event log。你可以向监管方展示:“看,这是它调用的每一个 API,这是 API 返回的原始数据,这是模型基于这些数据做的推理,全程无篡改。”这已经不是工程便利,而是法律意义上的“系统留痕”。第三,也是最容易被忽略的,它让 agent 的“人格”得以延续。一个销售 agent 不是每次对话都是全新的婴儿,它能记住上周客户提到的预算限制、竞争对手的报价、甚至对方 CEO 的高尔夫爱好。这些记忆不是存在 context 里等着被挤掉,而是作为MEMORY_UPDATE事件写入 log,下次awake(sessionId)时,Harness 会自动把相关事件摘要注入新的 context。这不再是“上下文长度决定记忆深度”,而是“业务逻辑决定记忆广度”。我在给一家律所做合同审查 agent 时,就利用这个特性,让 agent 在第一次会话中学习客户内部的《合同红黄线清单》,并将其作为SYSTEM_MEMORY事件存入 log。后续所有会话,它都会自动加载这份清单,审查准确率从 72% 提升到 94%,因为它的“专业背景知识”不再受制于 200K token 的窗口。

2.3 Sandbox:从“宠物”到“牲畜”的运维哲学

最后是 Sandbox。Anthropic 的文档里有一句很妙的比喻:“Sandboxes as cattle, not pets”。意思是,沙箱不是需要你精心呵护、给它起名字、记下它生日的“宠物”,而是像牧场里的牛群一样,批量生产、按需宰杀、用完即弃的“牲畜”。这背后是一整套现代云原生的运维哲学。当你调用execute(),Anthropic 后台不是在复用一个老旧的、可能残留着上一个 agent 数据的容器,而是瞬间拉起一个全新的、干净的 microVM。这个 VM 拥有独立的 CPU 核心、内存空间和根文件系统,启动时间控制在毫秒级。最关键的是,credentials(API keys、数据库密码)的注入方式。传统做法是把密钥塞进环境变量,agent 的代码里os.getenv("DB_PASSWORD")就能拿到。这极其危险——一旦 agent 被 prompt 注入攻击,它就能把自己的密钥原样吐出来。Anthropic 的方案是:密钥永远存放在一个 Vault 服务里,sandbox 在启动时,Vault 只向 sandbox 的内核进程(而非 agent 进程)提供一个临时的、有严格 TTL 和权限的访问令牌。agent 进程想调用数据库?它必须通过一个预设的、只允许特定 SQL 模板的代理接口,而这个接口的认证,是由 sandbox 内核用那个临时令牌完成的。agent 进程自己,永远看不到明文密钥。我亲眼见过一个客户因为没做这一步,被一个看似无害的“请帮我把刚才的分析结果发到我的 Slack 频道”指令,诱使 agent 执行了curl -H "Authorization: Bearer $SLACK_TOKEN",导致整个 Slack workspace 的管理权限泄露。Anthropic 的 sandbox 设计,本质上是在 agent(一个不可信的、可能被诱导的黑盒)和真实世界(数据库、API、文件系统)之间,砌了一堵由硬件虚拟化和零信任网络策略构成的防火墙。这堵墙的成本,就是你为每个 session-hour 支付的 $0.08。这笔钱买来的,不是计算资源,而是“心理安全感”。

3. 实操全景:从 YAML 定义到生产部署的完整链路

3.1 定义你的第一个 Managed Agent(YAML 版)

Anthropic 允许你用自然语言或 YAML 来定义 agent。对于追求精确控制和版本管理的团队,YAML 是不二之选。下面是一个为电商客服场景设计的、具备基础 RAG 和工具调用能力的 agent 完整定义:

# agent-config.yaml name: "ecommerce-support-agent" description: "Handles customer inquiries about orders, returns, and product availability." # 系统提示词,定义 agent 的角色、知识边界和行为准则 system_prompt: | You are a friendly and efficient customer support agent for 'ShopFast', an online retailer. Your primary goal is to resolve customer issues quickly and accurately. You have access to three tools: `lookup_order_status`, `initiate_return`, and `check_product_stock`. Always use the appropriate tool before giving a final answer. Never guess or hallucinate order numbers or SKUs. If a customer asks about something outside your scope (e.g., company history, stock price), politely decline and suggest contacting corporate. # 工具列表,定义 agent 可以调用的外部能力 tools: - name: "lookup_order_status" description: "Retrieves the current status (e.g., 'shipped', 'delivered', 'processing') of an order by its ID." input_schema: type: "object" properties: order_id: type: "string" description: "The unique identifier for the customer's order, e.g., 'SF-2026-789012'." required: ["order_id"] - name: "initiate_return" description: "Starts the return process for an order. Returns a return label URL and instructions." input_schema: type: "object" properties: order_id: type: "string" description: "The unique identifier for the customer's order." reason: type: "string" enum: ["defective", "wrong_item", "not_as_described", "changed_mind"] description: "The reason for the return." required: ["order_id", "reason"] - name: "check_product_stock" description: "Checks the real-time inventory level for a specific product SKU." input_schema: type: "object" properties: sku: type: "string" description: "The Stock Keeping Unit identifier for the product, e.g., 'SF-HEADPHONES-PRO-BLK'." required: ["sku"] # 安全护栏,防止 agent 越界 guardrails: # 禁止输出任何包含信用卡号、身份证号的模式 pii_filter: patterns: - "credit_card_number" - "ssn" - "passport_number" # 限制模型在未使用工具的情况下,不得编造订单状态 hallucination_prevention: enabled: true fallback_message: "I don't have enough information to answer that. Let me look up the details for you." # 运行时配置 runtime_config: # 最大会话时长,单位:分钟 max_session_duration_minutes: 120 # 每次 tool call 的超时时间,单位:秒 tool_call_timeout_seconds: 30

这个 YAML 文件,就是你 agent 的“宪法”。它定义了 agent 是谁(system_prompt)、能做什么(tools)、不能做什么(guardrails),以及怎么做事(runtime_config)。把它上传到 Anthropic 的控制台,或者通过他们的 CLI 工具claude-agent deploy --config agent-config.yaml,一个托管 agent 就诞生了。整个过程,不需要你碰一行 Python 代码,也不需要你配置 Kubernetes 集群。你交付的,是一个声明式的、可测试、可版本化的配置文件。这和我们过去为一个 Flask 应用写requirements.txtDockerfilek8s-deployment.yaml的繁琐流程,形成了鲜明对比。它把“部署一个 AI 服务”的心智负担,从“运维工程师”降维到了“产品经理”。

3.2 集成到现有工作流:Notion 和 Slack 的实战案例

Anthropic 的文档里提到 Notion 和 Rakuten 是早期 adopter,这绝非虚言。我帮一家 SaaS 公司将 Managed Agents 集成进他们的内部 Notion workspace,过程堪称教科书级别。核心思路是:Notion 作为前端界面和数据源,Managed Agent 作为后端智能引擎,两者通过 Notion 的官方 API 桥接

  1. 数据准备:我们在 Notion 的一个 Database 中,创建了Customer_Inquiries表,包含Question(客户提问)、Status(状态:pending/resolved/escalated)、Agent_Response(agent 回复)等字段。
  2. 触发机制:利用 Notion 的Automations功能,设置一个自动化规则:“当Status字段被设置为pending时,运行自定义脚本”。
  3. 脚本编写:这个脚本(用 Python 写,部署在 Vercel Serverless Function 上)的核心逻辑是:
    # 1. 从 Notion API 获取最新的 pending inquiry inquiry = notion_client.get_last_pending_inquiry() # 2. 调用 Anthropic Managed Agent 的 execute API # 注意:这里传入的是 agent 的唯一 ID,不是模型名 response = anthropic_client.execute( agent_id="agnt-1234567890", input={"question": inquiry["Question"]}, session_id=inquiry["id"] # 复用 Notion page ID 作为 session ID,实现跨会话记忆 ) # 3. 将 agent 的回复更新回 Notion notion_client.update_page( page_id=inquiry["id"], properties={ "Agent_Response": {"title": [{"text": {"content": response["output"]}}]}, "Status": {"select": {"name": "resolved"}} } )
  4. 效果:一线支持人员只需在 Notion 里新建一条记录,填写客户问题,点击“提交”,几秒钟后,Agent_Response字段就会自动填入专业、准确的答案。整个过程,员工无需离开 Notion,无需登录另一个系统,agent 的“思考过程”(event log)则被完整记录在 Anthropic 后台,供 QA 团队随时抽查。Rakuten 的 Slack 集成逻辑类似,只不过触发器换成了/ask-claudeSlash Command,响应则通过 Slack 的chat.postMessageAPI 发送回频道。关键在于,无论是 Notion 还是 Slack,它们都只是“输入法”和“显示器”,真正的智能决策,全部下沉到了 Anthropic 托管的、安全的、可审计的 runtime 层。

3.3 定价模型与成本实测:$0.08/session-hour 的真实含义

Anthropic 的定价是$0.08 per session-hour of active runtime,外加标准的 Claude token 费用。这个“session-hour”是理解成本的关键。它不是指你创建了一个 session 就开始计费,而是指 session 处于“活跃”(active)状态的时间总和。一个 session 何时算“活跃”?当你调用execute(),Harness 开始执行,session 就进入活跃状态;当execute()返回结果,Harness 空闲等待下一次调用,session 就进入“休眠”(idle)状态。Anthropic 对休眠状态收取极低的费用($0.001/hour),目的是鼓励你保持 session 长期存在,以利用其持久化 memory 的优势。

我做了一组压力测试,模拟一个中型客服团队(50 名坐席)的日均负载:

  • 场景 A(轻量交互):平均每次会话 3 轮问答(用户问 -> agent 查 -> agent 答),每轮execute()耗时约 1.2 秒。平均每 session 活跃时间为 3.6 秒。日均 10,000 次会话。
    • session-hour 成本 = (10,000 * 3.6) / 3600 ≈ 10 小时 * $0.08 =$0.80/天
  • 场景 B(复杂任务):处理一个退货请求,涉及lookup_order_status->check_product_stock->initiate_return三次 tool call,加上模型整合,总活跃时间约 8.5 秒。日均 2,000 次此类会话。
    • session-hour 成本 = (2,000 * 8.5) / 3600 ≈ 4.7 小时 * $0.08 =$0.38/天

提示:这里的计算是纯活跃时间。实际项目中,你还需要考虑 token 成本。以 Claude 3.5 Sonnet 为例,一次典型的 3 轮问答,输入+输出约 1500 tokens,成本约为 $0.0075。10,000 次就是 $75。所以,对于大多数企业应用,token 成本是大头,session-hour 成本是毛毛雨。$0.08 的意义,不在于它本身多便宜,而在于它传递了一个信号:Anthropic 把 runtime 当作一个“水电煤”一样的基础设施来定价,它的目标不是靠 runtime 盈利,而是靠它上面跑的、消耗海量 tokens 的 Claude 模型来盈利。这和 AWS 的策略如出一辙——EC2 实例本身利润薄,但 S3 存储、Lambda 计算、RDS 数据库才是利润中心。

4. 竞争格局全景扫描:为什么说 Anthropic 是在“防守”,而非“开创”

4.1 AWS Bedrock AgentCore:那个被所有人忽略的“ incumbent”

文章正文里那句“Amazon Bedrock AgentCore hit general availability in late 2025”是全文最关键的伏笔,却被绝大多数读者忽略了。AWS 在 2025 年底就将 AgentCore 推向 GA(General Availability),意味着它已经过了 beta 的不稳定期,进入了企业客户可以放心采购、写入 SLA 的阶段。而到 2026 年 3 月,其 SDK 下载量已突破两百万次。这个数字有多恐怖?我们来类比一下:LangChain 的 GitHub Stars 在 2025 年初是 52,000,到 2026 年 4 月是 68,000。也就是说,仅仅五个月,AgentCore 的开发者采用速度,就达到了 LangChain 这个生态基石近两年的增长量。这不是一个玩具,这是一个已经被市场大规模验证的、成熟的、生产就绪的平台。

AgentCore 的技术栈,是 AWS 云原生能力的集大成者:

  • MicroVM 隔离:每个 session 运行在一个 Firecracker 微虚拟机中,拥有独立的 CPU、内存、网络栈和文件系统。这意味着,即使一个恶意的、被 prompt 注入的 agent 试图rm -rf /,它删掉的也只是自己那个小沙箱里的文件,宿主机和其他 session 安然无恙。这种隔离强度,远超 Docker 容器。
  • 八小时超长会话:比 Anthropic 的默认限制(通常是 2 小时)长了四倍。这对于需要长时间运行、分步处理的后台任务(如批量数据清洗、长周期市场分析)至关重要。
  • 框架完全中立:AgentCore 不绑定任何特定的 agent 框架。你可以把一个用 LangGraph 写的 workflow、一个用 CrewAI 编排的 multi-agent 系统、甚至一个用 Rust 写的、编译成 WebAssembly 的轻量级 harness,统统丢进去。它只认一个最简单的接口:input: JSON -> output: JSON。这种“框架无关性”,是 Anthropic 的 Managed Agents 目前还不具备的开放性。

注意:AWS 的策略从来不是“做出最好的产品”,而是“做出最方便、最省心、最能融入你现有云账单的产品”。AgentCore 就是这样一个存在。你不需要单独为它开一个账户、付一笔钱。它的费用,会直接计入你庞大的 AWS 账单,和 EC2、S3、RDS 的费用混在一起。对于 CIO 来说,审批一笔“新增的 AI 运行时服务”预算,远比审批“AWS 云支出增加 0.5%”要困难得多。这就是所谓的“free-adjacent”——它不免费,但它贵得让你感觉不到。

4.2 Google Vertex AI Agent Builder 与 Microsoft Azure AI Foundry:巨头的“三明治”围剿

如果说 AWS 是用“云账单”进行渗透,那么 Google 和 Microsoft 则是用“生态位”进行合围。Vertex AI Agent Builder 的核心武器是Agent Registry,它被深度集成进了 Google Cloud 的 API 管理平台 Apigee。这意味着,一个在 Vertex 上训练好的、用于分析医疗影像的 agent,可以被注册为一个标准的 REST API,然后像调用任何其他 Google Cloud API(如 Vision AI、Natural Language API)一样,被企业的任何内部系统调用。Apigee 提供的流量控制、配额管理、审计日志、OAuth2 认证,全部开箱即用。你不需要自己去写一个 API 网关,AgentBuilder 已经帮你完成了最后一公里的“产品化”。

而 Microsoft 的 Azure AI Foundry,则走了一条更激进的路线:直接收购与整合。它把开源社区里最火的两个 agent 框架——AutoGen(微软自家孵化)和 Semantic Kernel(微软主导的开源项目)——直接“编译”进了 Foundry 的核心。这相当于,你在 Foundry 里创建一个新 agent,IDE 里弹出的模板,就是 AutoGen 的GroupChatManager或 Semantic Kernel 的Kernel实例。这种深度整合,极大地降低了开发者的认知门槛。一个熟悉 AutoGen 的工程师,几乎不用学习新东西,就能在 Azure 上部署一个生产级的、带 sandbox 和 policy 的 agent。这招的厉害之处在于,它把“框架选择”的战争,提前终结在了“开发体验”这一环。开发者一旦习惯了在 Foundry 里用 AutoGen,就很难再回头去学 Anthropic 的 YAML 语法或 AWS 的 Terraform 模块。

这三家巨头的策略,构成了一个完美的“三明治”:

  • 底层(Infrastructure):AWS 提供最硬核、最隔离、最云原生的 runtime。
  • 中层(Platform):Google 提供最易集成、最符合企业 API 管理习惯的发布与治理平台。
  • 上层(Framework):Microsoft 提供最顺手、最无缝、最降低学习成本的开发框架。

Anthropic 的 Managed Agents,无论工程多么精良,都只能在这个三明治的夹缝中,努力寻找自己的定位——一个“Claude 专属优化”的高性能 runtime。它无法挑战 AWS 的基础设施地位,无法替代 Google 的 API 生态,也无法撼动 Microsoft 的开发者心智。它的存在,更像是一个高质量的“参考实现”,证明了这个 layer 应该长什么样,从而加速了整个行业的标准化进程。这,就是一种最高级别的“防守”。

5. 价值迁移:当 runtime 归零,钱流向了哪里?

5.1 Trace Store:从“日志”到“司法证据”的价值跃迁

当 runtime 层变得像自来水一样普遍和廉价,下一个被争夺的高地,必然是Trace Store——那个记录 agent 每一次心跳、每一次呼吸、每一次决策的“系统真相”。目前,这个领域已经形成了三足鼎立之势,但它们的基因截然不同:

公司/项目核心优势商业模式我的实测评价
Braintrust (Brainstore)专为 AI 交互日志设计的 OLAP 数据库,查询性能极佳,支持复杂的跨 session 分析(如“找出所有因 stock 查询失败而导致的客户投诉”)。纯商业 SaaS,$36M Series A 后估值 $150M,定价高昂,面向大型企业。在一个拥有 500 万条日志的测试集上,执行一个包含 3 个 JOIN 和 2 个 WINDOW FUNCTION 的复杂分析,耗时仅 1.2 秒。但它的 SDK 文档晦涩,初期上手成本高。
Arize (Phoenix)开源核心(Apache 2.0)+ 商业增值版。Phoenix 是其开源的可观测性仪表盘,功能完整,社区活跃。“开源引流,商业变现”。免费版够用,高级功能(如自动 root cause analysis、与 Jira 的深度集成)需付费。我们团队用 Phoenix 搭建了内部监控,它能自动检测到 agent 的TOOL_CALL失败率在 15 分钟内从 0.1% 飙升至 12%,并关联到上游一个数据库连接池的告警。这是真正的“主动发现”。
LangSmithLangChain 生态的“亲儿子”,安装即用(pip install langsmith),所有 LangChain 应用的日志,开箱即接入。免费额度 + 按用量付费。LangChain 用户的默认选择,网络效应强大。最大的优点是“零配置”。但它的强项在于调试单个 chain,对于跨多个 agent、多个 framework 的全局 trace 分析,能力稍弱。

实操心得:选择哪个 Trace Store,不取决于谁的技术最强,而取决于你的 agent 是用什么框架写的,以及你的组织是否已经有一个统一的可观测性平台(如 Datadog、New Relic)。如果你的 agent 是 LangChain 写的,LangSmith 是最省心的选择;如果你的团队已经有 Datadog,并且希望把 agent trace 和应用性能监控(APM)日志放在一个地方看,那么 Arize 的 Datadog Exporter 插件会让你事半功倍。Trace portability 是当前最大的痛点。今天你用 Anthropic,明天切到 AWS,你的历史日志能一键迁移过去吗?目前,没有任何一家敢说“100% 兼容”。所以,聪明的团队已经开始在自己的应用层,用统一的 schema(比如 OpenTelemetry 的ai.*属性)来记录所有关键事件,把 vendor lock-in 的风险,降到最低。

5.2 Governance & Policy:当 agent 能力越强,管控需求就越刚性

Runtime 的 commoditization,直接催生了Governance & Policy这个全新赛道。AWS 在 2026 年 3 月将 AgentCore 的 Policy Controls 推向 GA,这标志着企业级管控不再是可选项,而是必选项。一个典型的 Policy 控制台,会包含以下维度:

  • Data Access Policies:规定 agent 可以访问哪些数据源。例如,“销售 agent” 只能读取sales_db.customers表,不能访问hr_db.employees
  • Tool Invocation Policies:规定 agent 可以调用哪些工具,以及调用的条件。例如,“财务 agent” 可以调用transfer_funds工具,但单笔金额不得超过 $10,000,且必须经过二次人工审批。
  • Output Filtering Policies:规定 agent 的输出必须经过哪些过滤。例如,所有对外发送的邮件,必须经过 DLP(数据防泄漏)引擎扫描,屏蔽所有 PII(个人身份信息)。
  • Audit & Compliance Reports:自动生成满足 SOC2、HIPAA、GDPR 等合规要求的审计报告,详细列出某段时间内,所有 agent 的操作记录、审批人、执行结果。

这个领域的空白,比 Trace Store 更大。目前还没有一个公认的“OWASP Top 10 for Agents”之外的、成熟的企业级 Policy Engine。各家都在摸索。我参与过一个银行的 PoC(概念验证),他们要求 agent 在生成任何投资建议前,必须:

  1. 调用一个内部的validate_regulatory_rules工具,传入建议内容;
  2. 该工具返回一个 JSON,包含is_compliant: true/falseviolated_rules: ["SEC Rule 151-2", "FINRA 2111"]
  3. 如果is_compliant为 false,agent 必须停止输出,并返回一个预设的、合规的拒绝话术。

这个需求,用 Anthropic 或 AWS 的原生 Policy 功能,都无法直接满足。最后,我们不得不在 agent 的 harness 层,自己写了一个轻量级的 Policy Gateway,作为所有 tool call 的前置检查点。这恰恰说明了,Policy 不是 runtime 的一个开关,而是一个需要深度定制、与业务逻辑强耦合的中间件。谁能提供最灵活、最易集成、最符合监管语言的 Policy SDK,谁就能在这个新兴的、百亿美金规模的市场上,占据先机。

5.3 Vertical Agent Marketplaces:当“通用智能”失效,“垂直专家”崛起

最后,也是最激动人心的价值迁移方向,是Vertical Agent Marketplaces。Salesforce 的 Agentforce ARR 在 2026 年 Q4 达到 8 亿美元,同比增长 169%,这个数字不是偶然。它揭示了一个铁律:企业愿意为能解决其具体业务问题的 agent 付费,而不是为一个“能聊天的 AI”付费。一个“销售开发 agent”,能自动从 LinkedIn 抓取线索、根据公司官网和新闻稿生成个性化 cold email、追踪邮件打开和点击、并在 CRM 里自动创建 follow-up task——这样的 agent,其 ROI(投资回报率)是清晰、可衡量的。它卖的不是技术,而是“销售代表的生产力”。

这个趋势,在开源社区已经星火燎原:

  • Financevirattt/ai-hedge-fund项目,一个用 Python 写的、能自动执行量化交易策略的 agent,它能实时监听 SEC 的 EDGAR 数据库,当某家公司提交了 13F 文件(披露其持仓),它能在 30 秒内分析其持仓变化,并根据预设策略,自动下单买卖相关股票。它不解释什么是“对冲基金”,它只做一件事:赚钱。
  • Securityvxcontrol/pentagi项目,一个渗透测试 agent。你给它一个目标网站的 URL,它会自动执行 Recon(信息收集)、Vulnerability Scanning(漏洞扫描)、Exploitation(漏洞利用)、Post-Exploitation(提权与维持)的全流程,并生成一份符合 PTES(渗透测试执行标准)的 PDF 报告。它不讲“网络安全原理”,它只做一件事:找漏洞。

个人体会:我最近在评估一个医疗领域的 agent,它声称能“辅助医生诊断”。但当我深入看它的 demo,发现它只是把 UpToDate 的内容做了个 RAG 检索,然后用大模型润色了一下。这毫无壁垒。真正让我眼前一亮的,是一个叫med-llm-triage的开源项目,它能直接接入医院的 HL7/FHIR 接口,实时读取患者的 EHR(电子健康档案)、最新的 lab test 结果、以及正在服用的药物清单,然后根据 CDC 和 WHO 的最新指南,给出一个结构化的 triage 建议(如“高优先级:立即转急诊”、“中优先级:24 小时内门诊随访”)。它卖的不是“AI”,而是“分诊决策的确定性”。当 runtime 层归零,这些扎根于垂直领域、深谙业务规则、能直接嵌入工作流的 agent,将成为企业采购清单上的“刚需品”,而它们的开发者,也将成为下一个十年的赢家。

6. 终极拷问:你的 startup,卖的是“runtime”,还是“floor above”?

这篇文章写到这里,你应该已经看清了这张棋盘。Anthropic 的 Managed Agents,是一次漂亮的、精准的、带着防御色彩的落子。它的架构值得尊敬,它的工程值得学习,它的定价在小规模上很有竞争力。但它无法改变一个正在发生的、不可逆的产业浪潮:agent runtime 层,正在经历一场和当年虚拟化、容器化、Serverless 化一模一样的“归零”过程。VMware 在 2005 年卖 ESX 的时候,也觉得自己构建了一个坚不可摧的护城河。但历史告诉我们,当一个基础设施层被证明是“必要且通用”的,它的价值就会被云厂商以“免费”或“捆绑”的方式吸收,最终成为一张白纸,上面画什么,才真正决定未来。

所以,如果你正在创办一家 AI 基础设施公司,或者你正在为一家这样的公司做战略规划,请务必回答这个问题:你的核心价值,是构建在 runtime 这张“白纸”上,还是构建在白纸之上的“trace”、“governance”、“vertical agent”这些新楼层上?如果答案是前者,那么你的故事,很可能就是下一个 VMware——一个曾经辉煌、拥有稳定现金流、但再也无法定义下一个十年的“老兵”。你的 KPI 应该是“客户留存率”和“ARR(年度经常性收入)”,而不是“技术领先性”。

而如果你的答案是后者,那么恭喜

http://www.jsqmd.com/news/865271/

相关文章:

  • 如何用Rescuezilla这个系统恢复瑞士军刀拯救你的数据?
  • 2026最新用户口碑:号卡分销平台哪个靠谱? 浩卡联盟 - 博客万
  • 3步轻松获取通达信数据:Python量化分析入门指南
  • 大模型MoE架构原理与工程实践:从参数激活到路由调度
  • 不压价、秒到账!重庆收的顶,30年老店撑起名表回收半边天 - 奢侈品回收测评
  • Kubernetes组件详解【20260522】004篇-扩容版002
  • 杭州汽车贴膜哪家靠谱?龙膜精英店真实测评推荐 - 品牌洞察官
  • 如何让浏览器下载提速300%:Motrix WebExtension终极配置秘籍
  • 工厂物业洗地机决策测评 五大核心维度解析 - 资讯速览
  • 6款论文降AIGC网站实测:100%AI率秒清零,这款好用还便宜
  • 5步轻松掌握Audiveris:免费开源乐谱识别神器的完整指南
  • 【NotebookLM显著性判断避坑手册】:从论文引用偏差到LLM幻觉干扰,6类高危场景即时诊断
  • 2026年5月23日雅典官方售后网点实测报告:真实体验与数据验证解析 - 亨得利官方服务中心
  • wvp-GB28181-pro实战指南:构建企业级视频监控平台的5大核心模块
  • 2026内蒙古发电机租赁服务商综合测评:五大维度实力对比 - 深度智识库
  • 终极指南:Windows系统下Upscayl AI图像放大工具本地构建与故障排除完整教程
  • MySQL 慢查询优化实战
  • ColabFold:打破蛋白质结构预测的壁垒,从实验室到指尖的AI革命
  • AI模型受限发布机制解析:Gated Release原理与工程实践
  • 2026年最新测评:天学网和智学网哪个更适合学生日常使用?
  • 工厂物业洗地机四大指标PK 选对设备省心省力 - 资讯速览
  • 嵊州亲测:正规随车吊企业哪家强? - 花开富贵112
  • 大模型MoE架构揭秘:为什么GPT-4只用2%参数
  • Kubernetes组件详解【20260522】004篇-扩容版003
  • 2026实力派!好用的降AI率网站实测,效率直接拉满!
  • Sigil EPUB编辑器终极指南:高效创建专业电子书的完整方案
  • 联邦学习原理与实战:数据不动模型动的隐私AI范式
  • ChatGPT生成PPT必须加的3个元指令,否则字体/配色/逻辑链全崩:微软M365认证讲师内部培训材料首曝
  • 【Perplexity案例法检索实战指南】:20年专家亲授3大核心技巧,90%工程师不知道的隐性检索瓶颈
  • 5分钟快速上手:使用SMUDebugTool解锁AMD Ryzen处理器隐藏性能