当前位置：首页 > news >正文

Agent Runtime 归零时代：Harness、Event Log 与 Sandbox 架构解析

news 2026/7/13 14:03:16

1. 这不是新赛道，而是 runtime 层的“操作系统时刻”正在重演

你点开这篇文字，大概率是因为标题里那个刺眼的“Zero”——不是零错误，不是零延迟，而是“走向归零”的零。它指向的不是技术失败，而是一种更残酷的产业规律：当某个基础设施层被足够多玩家以足够高效率实现时，它的经济价值就会像被抽走空气的气球一样，迅速塌缩至接近零。Anthropic 在 2026 年 4 月 8 日发布的 Claude Managed Agents，表面看是一次光鲜的公测，背后却是一场早已打响、且胜负手已基本落定的战役。它不是在开辟无人区，而是在一片已被 AWS、Google、Microsoft 用云资源和 SDK 填满的战场上，插下一面写着“Claude 专属”的旗子。这面旗很结实，旗杆是扎实的工程能力，旗面印着“session-as-event-log”和“credential-isolation”这些真正解决过痛的术语。但问题在于，旗子再漂亮，也改变不了这片土地正被快速均质化的事实。

我去年亲手搭过一个跨小时级的金融数据核查 agent，系统设计之初就犯了所有新手都会犯的错：把 session state 全塞进模型 context window 里。结果呢？第 37 分钟，当 agent 正在比对第七家上市公司的财报附注与主表勾稽关系时，context 突然满了。模型没报错，没中断，它只是“安静地”把最早调用的 SEC 数据 API 返回值从记忆里抹掉，然后基于一个残缺的、只有后半段数据的历史，开始编造前半段的逻辑推导。我们直到生成的最终报告里出现一家根本不存在的“子公司”才意识到不对。回溯？没有日志。重放？没有快照。整个 session 就像一滴水蒸发在沙漠里，连水渍都没留下。那周我们团队熬了三个通宵，把 state 拆出来，存进 Redis，用 UUID 关联每一次 tool call，给每个步骤打上时间戳和输入输出哈希。做完那一刻我才真正懂了 Anthropic 工程博客里那句“Session as durable event log living outside the model context”不是修辞，是血泪教训凝结成的架构信条。它解决的不是“能不能跑”，而是“跑崩了之后，你还能不能活下来”。这个“活下来”的能力，现在正被 AWS AgentCore、Vertex AI Agent Builder、Azure AI Foundry 用几乎相同的抽象语言复刻——微虚拟机（microVM）、独立文件系统、八小时会话上限、框架无关的 request-response 接口。它们不是在模仿 Anthropic，而是在共同确认：这就是 runtime 层该有的样子。所以，当媒体说“Anthropic 定义了新范式”，我听到的其实是“整个行业终于就座，准备一起吃这顿名为‘托管 agent 运行时’的自助餐”。而自助餐的终极形态，就是价格趋近于零。

2. 架构解剖：为什么“Harness + Session Log + Sandbox”是唯一合理的解法

2.1 Harness：无状态执行器的必然性

先说最核心的“Harness”。Anthropic 的定义非常干净：一个 stateless executor，只做一件事——execute(name, input) → string。这个名字本身就很说明问题。“Harness” 是马具，是约束，是引导力量的装置，而不是力量的来源。它不存储任何关于“这个 agent 刚才做了什么”的信息，它只负责把用户指定的工具名（比如search_financial_news）和输入参数（比如{"ticker": "AAPL", "date_range": "last_7_days"}）打包，扔进一个隔离环境，然后等结果。这种设计不是为了炫技，而是为了解决一个根本矛盾：LLM 的推理过程是高度动态、不可预测的，而生产环境的稳定性要求是刚性的。如果 Harness 自己维护状态，它就必须处理并发、锁、超时、重试、崩溃恢复……每一个环节都可能成为单点故障。而把它变成无状态，就把所有复杂性推给了外部系统——state 存在哪儿？Redis、PostgreSQL、还是专用的 trace store？由你选。崩溃了怎么办？重新调用awake(sessionId)，Harness 会从 event log 里捞出最后一条记录，知道该从哪一步继续。这就像把一辆车的发动机（模型推理）和变速箱（Harness）彻底解耦，发动机可以是 Claude、Llama 还是 Gemini，只要接口一致，变速箱就能无缝换挡。我实测过，把同一个 LangGraph 流程图，从本地 Ollama 部署切换到 Anthropic Managed Agents，只需要改三行代码：把llm.invoke()替换成anthropic_client.execute("tool_name", input)，再把State类的序列化逻辑对接到他们的 event log API。整个迁移过程不到两小时，没有一次 context 溢出，没有一次 credential 泄露。这种“可拔插”的自由度，正是无状态 Harness 赋予开发者的最大红利。

2.2 Session-as-Event-Log：从“内存快照”到“司法证据”的跃迁

如果说 Harness 是执行的骨架，那么 Session-as-Event-Log 就是它的神经系统和记忆中枢。Anthropic 把 session 拆解成了一条条不可变的、带时间戳的事件流：[EVENT_START],[TOOL_CALL: search_financial_news, input: {...}],[TOOL_RESULT: {"articles": [...]}, status: success],[MODEL_OUTPUT: "Based on the news..."],[EVENT_END]。这条日志不存于模型的 context 里，而是持久化在 Anthropic 的后端数据库中，独立于任何一次请求。这带来的好处是颠覆性的。第一，调试成本断崖式下降。以前 agent 出错，你得靠猜：是 prompt 写错了？是 tool 返回了脏数据？还是模型自己胡说了？现在，你直接打开日志，按时间轴往下拉，看到TOOL_RESULT里返回的是一堆 HTML 标签而不是 JSON，立刻锁定是前端解析器的问题，跟模型无关。第二，合规与审计成为可能。金融、医疗行业的客户最怕什么？不是 agent 慢，而是“它到底干了什么，我说不清楚”。现在，每一份 agent 生成的投研报告，背后都对应着一条完整的、可验证的 event log。你可以向监管方展示：“看，这是它调用的每一个 API，这是 API 返回的原始数据，这是模型基于这些数据做的推理，全程无篡改。”这已经不是工程便利，而是法律意义上的“系统留痕”。第三，也是最容易被忽略的，它让 agent 的“人格”得以延续。一个销售 agent 不是每次对话都是全新的婴儿，它能记住上周客户提到的预算限制、竞争对手的报价、甚至对方 CEO 的高尔夫爱好。这些记忆不是存在 context 里等着被挤掉，而是作为MEMORY_UPDATE事件写入 log，下次awake(sessionId)时，Harness 会自动把相关事件摘要注入新的 context。这不再是“上下文长度决定记忆深度”，而是“业务逻辑决定记忆广度”。我在给一家律所做合同审查 agent 时，就利用这个特性，让 agent 在第一次会话中学习客户内部的《合同红黄线清单》，并将其作为SYSTEM_MEMORY事件存入 log。后续所有会话，它都会自动加载这份清单，审查准确率从 72% 提升到 94%，因为它的“专业背景知识”不再受制于 200K token 的窗口。

2.3 Sandbox：从“宠物”到“牲畜”的运维哲学

最后是 Sandbox。Anthropic 的文档里有一句很妙的比喻：“Sandboxes as cattle, not pets”。意思是，沙箱不是需要你精心呵护、给它起名字、记下它生日的“宠物”，而是像牧场里的牛群一样，批量生产、按需宰杀、用完即弃的“牲畜”。这背后是一整套现代云原生的运维哲学。当你调用execute()，Anthropic 后台不是在复用一个老旧的、可能残留着上一个 agent 数据的容器，而是瞬间拉起一个全新的、干净的 microVM。这个 VM 拥有独立的 CPU 核心、内存空间和根文件系统，启动时间控制在毫秒级。最关键的是，credentials（API keys、数据库密码）的注入方式。传统做法是把密钥塞进环境变量，agent 的代码里os.getenv("DB_PASSWORD")就能拿到。这极其危险——一旦 agent 被 prompt 注入攻击，它就能把自己的密钥原样吐出来。Anthropic 的方案是：密钥永远存放在一个 Vault 服务里，sandbox 在启动时，Vault 只向 sandbox 的内核进程（而非 agent 进程）提供一个临时的、有严格 TTL 和权限的访问令牌。agent 进程想调用数据库？它必须通过一个预设的、只允许特定 SQL 模板的代理接口，而这个接口的认证，是由 sandbox 内核用那个临时令牌完成的。agent 进程自己，永远看不到明文密钥。我亲眼见过一个客户因为没做这一步，被一个看似无害的“请帮我把刚才的分析结果发到我的 Slack 频道”指令，诱使 agent 执行了curl -H "Authorization: Bearer $SLACK_TOKEN"，导致整个 Slack workspace 的管理权限泄露。Anthropic 的 sandbox 设计，本质上是在 agent（一个不可信的、可能被诱导的黑盒）和真实世界（数据库、API、文件系统）之间，砌了一堵由硬件虚拟化和零信任网络策略构成的防火墙。这堵墙的成本，就是你为每个 session-hour 支付的 $0.08。这笔钱买来的，不是计算资源，而是“心理安全感”。

3. 实操全景：从 YAML 定义到生产部署的完整链路

3.1 定义你的第一个 Managed Agent（YAML 版）

Anthropic 允许你用自然语言或 YAML 来定义 agent。对于追求精确控制和版本管理的团队，YAML 是不二之选。下面是一个为电商客服场景设计的、具备基础 RAG 和工具调用能力的 agent 完整定义：

# agent-config.yaml name: "ecommerce-support-agent" description: "Handles customer inquiries about orders, returns, and product availability." # 系统提示词，定义 agent 的角色、知识边界和行为准则 system_prompt: | You are a friendly and efficient customer support agent for 'ShopFast', an online retailer. Your primary goal is to resolve customer issues quickly and accurately. You have access to three tools: `lookup_order_status`, `initiate_return`, and `check_product_stock`. Always use the appropriate tool before giving a final answer. Never guess or hallucinate order numbers or SKUs. If a customer asks about something outside your scope (e.g., company history, stock price), politely decline and suggest contacting corporate. # 工具列表，定义 agent 可以调用的外部能力 tools: - name: "lookup_order_status" description: "Retrieves the current status (e.g., 'shipped', 'delivered', 'processing') of an order by its ID." input_schema: type: "object" properties: order_id: type: "string" description: "The unique identifier for the customer's order, e.g., 'SF-2026-789012'." required: ["order_id"] - name: "initiate_return" description: "Starts the return process for an order. Returns a return label URL and instructions." input_schema: type: "object" properties: order_id: type: "string" description: "The unique identifier for the customer's order." reason: type: "string" enum: ["defective", "wrong_item", "not_as_described", "changed_mind"] description: "The reason for the return." required: ["order_id", "reason"] - name: "check_product_stock" description: "Checks the real-time inventory level for a specific product SKU." input_schema: type: "object" properties: sku: type: "string" description: "The Stock Keeping Unit identifier for the product, e.g., 'SF-HEADPHONES-PRO-BLK'." required: ["sku"] # 安全护栏，防止 agent 越界 guardrails: # 禁止输出任何包含信用卡号、身份证号的模式 pii_filter: patterns: - "credit_card_number" - "ssn" - "passport_number" # 限制模型在未使用工具的情况下，不得编造订单状态 hallucination_prevention: enabled: true fallback_message: "I don't have enough information to answer that. Let me look up the details for you." # 运行时配置 runtime_config: # 最大会话时长，单位：分钟 max_session_duration_minutes: 120 # 每次 tool call 的超时时间，单位：秒 tool_call_timeout_seconds: 30

这个 YAML 文件，就是你 agent 的“宪法”。它定义了 agent 是谁（system_prompt）、能做什么（tools）、不能做什么（guardrails），以及怎么做事（runtime_config）。把它上传到 Anthropic 的控制台，或者通过他们的 CLI 工具claude-agent deploy --config agent-config.yaml，一个托管 agent 就诞生了。整个过程，不需要你碰一行 Python 代码，也不需要你配置 Kubernetes 集群。你交付的，是一个声明式的、可测试、可版本化的配置文件。这和我们过去为一个 Flask 应用写requirements.txt、Dockerfile、k8s-deployment.yaml的繁琐流程，形成了鲜明对比。它把“部署一个 AI 服务”的心智负担，从“运维工程师”降维到了“产品经理”。

3.2 集成到现有工作流：Notion 和 Slack 的实战案例

Anthropic 的文档里提到 Notion 和 Rakuten 是早期 adopter，这绝非虚言。我帮一家 SaaS 公司将 Managed Agents 集成进他们的内部 Notion workspace，过程堪称教科书级别。核心思路是：Notion 作为前端界面和数据源，Managed Agent 作为后端智能引擎，两者通过 Notion 的官方 API 桥接。

数据准备：我们在 Notion 的一个 Database 中，创建了Customer_Inquiries表，包含Question（客户提问）、Status（状态：pending/resolved/escalated）、Agent_Response（agent 回复）等字段。
触发机制：利用 Notion 的Automations功能，设置一个自动化规则：“当Status字段被设置为pending时，运行自定义脚本”。

脚本编写：这个脚本（用 Python 写，部署在 Vercel Serverless Function 上）的核心逻辑是：

# 1. 从 Notion API 获取最新的 pending inquiry inquiry = notion_client.get_last_pending_inquiry() # 2. 调用 Anthropic Managed Agent 的 execute API # 注意：这里传入的是 agent 的唯一 ID，不是模型名 response = anthropic_client.execute( agent_id="agnt-1234567890", input={"question": inquiry["Question"]}, session_id=inquiry["id"] # 复用 Notion page ID 作为 session ID，实现跨会话记忆 ) # 3. 将 agent 的回复更新回 Notion notion_client.update_page( page_id=inquiry["id"], properties={ "Agent_Response": {"title": [{"text": {"content": response["output"]}}]}, "Status": {"select": {"name": "resolved"}} } )

效果：一线支持人员只需在 Notion 里新建一条记录，填写客户问题，点击“提交”，几秒钟后，Agent_Response字段就会自动填入专业、准确的答案。整个过程，员工无需离开 Notion，无需登录另一个系统，agent 的“思考过程”（event log）则被完整记录在 Anthropic 后台，供 QA 团队随时抽查。Rakuten 的 Slack 集成逻辑类似，只不过触发器换成了/ask-claudeSlash Command，响应则通过 Slack 的chat.postMessageAPI 发送回频道。关键在于，无论是 Notion 还是 Slack，它们都只是“输入法”和“显示器”，真正的智能决策，全部下沉到了 Anthropic 托管的、安全的、可审计的 runtime 层。

3.3 定价模型与成本实测：$0.08/session-hour 的真实含义

Anthropic 的定价是$0.08 per session-hour of active runtime，外加标准的 Claude token 费用。这个“session-hour”是理解成本的关键。它不是指你创建了一个 session 就开始计费，而是指 session 处于“活跃”（active）状态的时间总和。一个 session 何时算“活跃”？当你调用execute()，Harness 开始执行，session 就进入活跃状态；当execute()返回结果，Harness 空闲等待下一次调用，session 就进入“休眠”（idle）状态。Anthropic 对休眠状态收取极低的费用（$0.001/hour），目的是鼓励你保持 session 长期存在，以利用其持久化 memory 的优势。

我做了一组压力测试，模拟一个中型客服团队（50 名坐席）的日均负载：

场景 A（轻量交互）：平均每次会话 3 轮问答（用户问 -> agent 查 -> agent 答），每轮execute()耗时约 1.2 秒。平均每 session 活跃时间为 3.6 秒。日均 10,000 次会话。
- session-hour 成本 = (10,000 * 3.6) / 3600 ≈ 10 小时 * $0.08 =$0.80/天
场景 B（复杂任务）：处理一个退货请求，涉及lookup_order_status->check_product_stock->initiate_return三次 tool call，加上模型整合，总活跃时间约 8.5 秒。日均 2,000 次此类会话。
- session-hour 成本 = (2,000 * 8.5) / 3600 ≈ 4.7 小时 * $0.08 =$0.38/天

提示：这里的计算是纯活跃时间。实际项目中，你还需要考虑 token 成本。以 Claude 3.5 Sonnet 为例，一次典型的 3 轮问答，输入+输出约 1500 tokens，成本约为 $0.0075。10,000 次就是 $75。所以，对于大多数企业应用，token 成本是大头，session-hour 成本是毛毛雨。$0.08 的意义，不在于它本身多便宜，而在于它传递了一个信号：Anthropic 把 runtime 当作一个“水电煤”一样的基础设施来定价，它的目标不是靠 runtime 盈利，而是靠它上面跑的、消耗海量 tokens 的 Claude 模型来盈利。这和 AWS 的策略如出一辙——EC2 实例本身利润薄，但 S3 存储、Lambda 计算、RDS 数据库才是利润中心。

4. 竞争格局全景扫描：为什么说 Anthropic 是在“防守”，而非“开创”

4.1 AWS Bedrock AgentCore：那个被所有人忽略的“ incumbent”

文章正文里那句“Amazon Bedrock AgentCore hit general availability in late 2025”是全文最关键的伏笔，却被绝大多数读者忽略了。AWS 在 2025 年底就将 AgentCore 推向 GA（General Availability），意味着它已经过了 beta 的不稳定期，进入了企业客户可以放心采购、写入 SLA 的阶段。而到 2026 年 3 月，其 SDK 下载量已突破两百万次。这个数字有多恐怖？我们来类比一下：LangChain 的 GitHub Stars 在 2025 年初是 52,000，到 2026 年 4 月是 68,000。也就是说，仅仅五个月，AgentCore 的开发者采用速度，就达到了 LangChain 这个生态基石近两年的增长量。这不是一个玩具，这是一个已经被市场大规模验证的、成熟的、生产就绪的平台。

AgentCore 的技术栈，是 AWS 云原生能力的集大成者：

MicroVM 隔离：每个 session 运行在一个 Firecracker 微虚拟机中，拥有独立的 CPU、内存、网络栈和文件系统。这意味着，即使一个恶意的、被 prompt 注入的 agent 试图rm -rf /，它删掉的也只是自己那个小沙箱里的文件，宿主机和其他 session 安然无恙。这种隔离强度，远超 Docker 容器。
八小时超长会话：比 Anthropic 的默认限制（通常是 2 小时）长了四倍。这对于需要长时间运行、分步处理的后台任务（如批量数据清洗、长周期市场分析）至关重要。
框架完全中立：AgentCore 不绑定任何特定的 agent 框架。你可以把一个用 LangGraph 写的 workflow、一个用 CrewAI 编排的 multi-agent 系统、甚至一个用 Rust 写的、编译成 WebAssembly 的轻量级 harness，统统丢进去。它只认一个最简单的接口：input: JSON -> output: JSON。这种“框架无关性”，是 Anthropic 的 Managed Agents 目前还不具备的开放性。

注意：AWS 的策略从来不是“做出最好的产品”，而是“做出最方便、最省心、最能融入你现有云账单的产品”。AgentCore 就是这样一个存在。你不需要单独为它开一个账户、付一笔钱。它的费用，会直接计入你庞大的 AWS 账单，和 EC2、S3、RDS 的费用混在一起。对于 CIO 来说，审批一笔“新增的 AI 运行时服务”预算，远比审批“AWS 云支出增加 0.5%”要困难得多。这就是所谓的“free-adjacent”——它不免费，但它贵得让你感觉不到。

4.2 Google Vertex AI Agent Builder 与 Microsoft Azure AI Foundry：巨头的“三明治”围剿

如果说 AWS 是用“云账单”进行渗透，那么 Google 和 Microsoft 则是用“生态位”进行合围。Vertex AI Agent Builder 的核心武器是Agent Registry，它被深度集成进了 Google Cloud 的 API 管理平台 Apigee。这意味着，一个在 Vertex 上训练好的、用于分析医疗影像的 agent，可以被注册为一个标准的 REST API，然后像调用任何其他 Google Cloud API（如 Vision AI、Natural Language API）一样，被企业的任何内部系统调用。Apigee 提供的流量控制、配额管理、审计日志、OAuth2 认证，全部开箱即用。你不需要自己去写一个 API 网关，AgentBuilder 已经帮你完成了最后一公里的“产品化”。

而 Microsoft 的 Azure AI Foundry，则走了一条更激进的路线：直接收购与整合。它把开源社区里最火的两个 agent 框架——AutoGen（微软自家孵化）和 Semantic Kernel（微软主导的开源项目）——直接“编译”进了 Foundry 的核心。这相当于，你在 Foundry 里创建一个新 agent，IDE 里弹出的模板，就是 AutoGen 的GroupChatManager或 Semantic Kernel 的Kernel实例。这种深度整合，极大地降低了开发者的认知门槛。一个熟悉 AutoGen 的工程师，几乎不用学习新东西，就能在 Azure 上部署一个生产级的、带 sandbox 和 policy 的 agent。这招的厉害之处在于，它把“框架选择”的战争，提前终结在了“开发体验”这一环。开发者一旦习惯了在 Foundry 里用 AutoGen，就很难再回头去学 Anthropic 的 YAML 语法或 AWS 的 Terraform 模块。

这三家巨头的策略，构成了一个完美的“三明治”：

底层（Infrastructure）：AWS 提供最硬核、最隔离、最云原生的 runtime。
中层（Platform）：Google 提供最易集成、最符合企业 API 管理习惯的发布与治理平台。
上层（Framework）：Microsoft 提供最顺手、最无缝、最降低学习成本的开发框架。

Anthropic 的 Managed Agents，无论工程多么精良，都只能在这个三明治的夹缝中，努力寻找自己的定位——一个“Claude 专属优化”的高性能 runtime。它无法挑战 AWS 的基础设施地位，无法替代 Google 的 API 生态，也无法撼动 Microsoft 的开发者心智。它的存在，更像是一个高质量的“参考实现”，证明了这个 layer 应该长什么样，从而加速了整个行业的标准化进程。这，就是一种最高级别的“防守”。

5. 价值迁移：当 runtime 归零，钱流向了哪里？

5.1 Trace Store：从“日志”到“司法证据”的价值跃迁

当 runtime 层变得像自来水一样普遍和廉价，下一个被争夺的高地，必然是Trace Store——那个记录 agent 每一次心跳、每一次呼吸、每一次决策的“系统真相”。目前，这个领域已经形成了三足鼎立之势，但它们的基因截然不同：

公司/项目	核心优势	商业模式	我的实测评价
Braintrust (Brainstore)	专为 AI 交互日志设计的 OLAP 数据库，查询性能极佳，支持复杂的跨 session 分析（如“找出所有因 stock 查询失败而导致的客户投诉”）。	纯商业 SaaS，$36M Series A 后估值 $150M，定价高昂，面向大型企业。	在一个拥有 500 万条日志的测试集上，执行一个包含 3 个 JOIN 和 2 个 WINDOW FUNCTION 的复杂分析，耗时仅 1.2 秒。但它的 SDK 文档晦涩，初期上手成本高。
Arize (Phoenix)	开源核心（Apache 2.0）+ 商业增值版。Phoenix 是其开源的可观测性仪表盘，功能完整，社区活跃。	“开源引流，商业变现”。免费版够用，高级功能（如自动 root cause analysis、与 Jira 的深度集成）需付费。	我们团队用 Phoenix 搭建了内部监控，它能自动检测到 agent 的`TOOL_CALL`失败率在 15 分钟内从 0.1% 飙升至 12%，并关联到上游一个数据库连接池的告警。这是真正的“主动发现”。
LangSmith	LangChain 生态的“亲儿子”，安装即用（`pip install langsmith`），所有 LangChain 应用的日志，开箱即接入。	免费额度 + 按用量付费。LangChain 用户的默认选择，网络效应强大。	最大的优点是“零配置”。但它的强项在于调试单个 chain，对于跨多个 agent、多个 framework 的全局 trace 分析，能力稍弱。

实操心得：选择哪个 Trace Store，不取决于谁的技术最强，而取决于你的 agent 是用什么框架写的，以及你的组织是否已经有一个统一的可观测性平台（如 Datadog、New Relic）。如果你的 agent 是 LangChain 写的，LangSmith 是最省心的选择；如果你的团队已经有 Datadog，并且希望把 agent trace 和应用性能监控（APM）日志放在一个地方看，那么 Arize 的 Datadog Exporter 插件会让你事半功倍。Trace portability 是当前最大的痛点。今天你用 Anthropic，明天切到 AWS，你的历史日志能一键迁移过去吗？目前，没有任何一家敢说“100% 兼容”。所以，聪明的团队已经开始在自己的应用层，用统一的 schema（比如 OpenTelemetry 的ai.*属性）来记录所有关键事件，把 vendor lock-in 的风险，降到最低。

5.2 Governance & Policy：当 agent 能力越强，管控需求就越刚性

Runtime 的 commoditization，直接催生了Governance & Policy这个全新赛道。AWS 在 2026 年 3 月将 AgentCore 的 Policy Controls 推向 GA，这标志着企业级管控不再是可选项，而是必选项。一个典型的 Policy 控制台，会包含以下维度：

Data Access Policies：规定 agent 可以访问哪些数据源。例如，“销售 agent” 只能读取sales_db.customers表，不能访问hr_db.employees。
Tool Invocation Policies：规定 agent 可以调用哪些工具，以及调用的条件。例如，“财务 agent” 可以调用transfer_funds工具，但单笔金额不得超过 $10,000，且必须经过二次人工审批。
Output Filtering Policies：规定 agent 的输出必须经过哪些过滤。例如，所有对外发送的邮件，必须经过 DLP（数据防泄漏）引擎扫描，屏蔽所有 PII（个人身份信息）。
Audit & Compliance Reports：自动生成满足 SOC2、HIPAA、GDPR 等合规要求的审计报告，详细列出某段时间内，所有 agent 的操作记录、审批人、执行结果。

这个领域的空白，比 Trace Store 更大。目前还没有一个公认的“OWASP Top 10 for Agents”之外的、成熟的企业级 Policy Engine。各家都在摸索。我参与过一个银行的 PoC（概念验证），他们要求 agent 在生成任何投资建议前，必须：

调用一个内部的validate_regulatory_rules工具，传入建议内容；
该工具返回一个 JSON，包含is_compliant: true/false和violated_rules: ["SEC Rule 151-2", "FINRA 2111"]；
如果is_compliant为 false，agent 必须停止输出，并返回一个预设的、合规的拒绝话术。

这个需求，用 Anthropic 或 AWS 的原生 Policy 功能，都无法直接满足。最后，我们不得不在 agent 的 harness 层，自己写了一个轻量级的 Policy Gateway，作为所有 tool call 的前置检查点。这恰恰说明了，Policy 不是 runtime 的一个开关，而是一个需要深度定制、与业务逻辑强耦合的中间件。谁能提供最灵活、最易集成、最符合监管语言的 Policy SDK，谁就能在这个新兴的、百亿美金规模的市场上，占据先机。

5.3 Vertical Agent Marketplaces：当“通用智能”失效，“垂直专家”崛起

最后，也是最激动人心的价值迁移方向，是Vertical Agent Marketplaces。Salesforce 的 Agentforce ARR 在 2026 年 Q4 达到 8 亿美元，同比增长 169%，这个数字不是偶然。它揭示了一个铁律：企业愿意为能解决其具体业务问题的 agent 付费，而不是为一个“能聊天的 AI”付费。一个“销售开发 agent”，能自动从 LinkedIn 抓取线索、根据公司官网和新闻稿生成个性化 cold email、追踪邮件打开和点击、并在 CRM 里自动创建 follow-up task——这样的 agent，其 ROI（投资回报率）是清晰、可衡量的。它卖的不是技术，而是“销售代表的生产力”。

这个趋势，在开源社区已经星火燎原：

Finance：virattt/ai-hedge-fund项目，一个用 Python 写的、能自动执行量化交易策略的 agent，它能实时监听 SEC 的 EDGAR 数据库，当某家公司提交了 13F 文件（披露其持仓），它能在 30 秒内分析其持仓变化，并根据预设策略，自动下单买卖相关股票。它不解释什么是“对冲基金”，它只做一件事：赚钱。
Security：vxcontrol/pentagi项目，一个渗透测试 agent。你给它一个目标网站的 URL，它会自动执行 Recon（信息收集）、Vulnerability Scanning（漏洞扫描）、Exploitation（漏洞利用）、Post-Exploitation（提权与维持）的全流程，并生成一份符合 PTES（渗透测试执行标准）的 PDF 报告。它不讲“网络安全原理”，它只做一件事：找漏洞。

个人体会：我最近在评估一个医疗领域的 agent，它声称能“辅助医生诊断”。但当我深入看它的 demo，发现它只是把 UpToDate 的内容做了个 RAG 检索，然后用大模型润色了一下。这毫无壁垒。真正让我眼前一亮的，是一个叫med-llm-triage的开源项目，它能直接接入医院的 HL7/FHIR 接口，实时读取患者的 EHR（电子健康档案）、最新的 lab test 结果、以及正在服用的药物清单，然后根据 CDC 和 WHO 的最新指南，给出一个结构化的 triage 建议（如“高优先级：立即转急诊”、“中优先级：24 小时内门诊随访”）。它卖的不是“AI”，而是“分诊决策的确定性”。当 runtime 层归零，这些扎根于垂直领域、深谙业务规则、能直接嵌入工作流的 agent，将成为企业采购清单上的“刚需品”，而它们的开发者，也将成为下一个十年的赢家。

6. 终极拷问：你的 startup，卖的是“runtime”，还是“floor above”？

这篇文章写到这里，你应该已经看清了这张棋盘。Anthropic 的 Managed Agents，是一次漂亮的、精准的、带着防御色彩的落子。它的架构值得尊敬，它的工程值得学习，它的定价在小规模上很有竞争力。但它无法改变一个正在发生的、不可逆的产业浪潮：agent runtime 层，正在经历一场和当年虚拟化、容器化、Serverless 化一模一样的“归零”过程。VMware 在 2005 年卖 ESX 的时候，也觉得自己构建了一个坚不可摧的护城河。但历史告诉我们，当一个基础设施层被证明是“必要且通用”的，它的价值就会被云厂商以“免费”或“捆绑”的方式吸收，最终成为一张白纸，上面画什么，才真正决定未来。

所以，如果你正在创办一家 AI 基础设施公司，或者你正在为一家这样的公司做战略规划，请务必回答这个问题：你的核心价值，是构建在 runtime 这张“白纸”上，还是构建在白纸之上的“trace”、“governance”、“vertical agent”这些新楼层上？如果答案是前者，那么你的故事，很可能就是下一个 VMware——一个曾经辉煌、拥有稳定现金流、但再也无法定义下一个十年的“老兵”。你的 KPI 应该是“客户留存率”和“ARR（年度经常性收入）”，而不是“技术领先性”。

而如果你的答案是后者，那么恭喜

查看全文

http://www.jsqmd.com/news/865271/