当前位置：首页 > news >正文

AI智能体运行时正走向商品化：从托管Agent看基础设施层演进

news 2026/7/4 14:15:42

1. 这不是新赛道，而是 runtime 层的“操作系统时刻”正在重演

你打开手机看到新闻标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》，第一反应可能是：又一个大模型公司搞出了什么黑科技？但如果你真花十分钟读完原始那篇长文，会发现它根本不是在讲“Anthropic有多强”，而是在冷静地划一条线——这条线，把整个 AI 工程栈切成了上下两层：上层是价值可沉淀、可定价、可构建护城河的部分；下层是注定被压缩、被免费化、被云厂商打包进账单的基础设施部分。我做 AI 基础设施落地项目整整七年，从最早用 Flask + Redis 手搓 agent 调度器，到后来给三家 Fortune 500 企业设计多租户沙箱平台，再到去年带队重构一个日均 27 万 session 的金融客服 agent 系统——我亲眼见过太多团队把全部精力押注在“怎么让 harness 更快”“怎么优化 sandbox 启动时间”上，结果半年后 AWS 一纸公告，AgentCore 直接开箱即用，连 YAML schema 都和他们自研的八九不离十。这不是技术失败，是战略误判。Anthropic 这次发布的 Managed Agents，表面看是“托管型智能体运行时”，实则是把一个本该由开发者自己扛的、沉重的、易出错的系统工程责任，收编进自己的服务边界里。它不解决“agent 该做什么”，只解决“agent 在哪儿安全、稳定、可审计地跑”。这恰恰印证了一个我反复验证过的规律：当某一层基础设施开始出现多个商业实现+开源替代+云厂商内置版本时，这一层就进入了不可逆的 commoditization（商品化）通道。它的定价逻辑会迅速从“按能力付费”转向“按资源消耗付费”，再滑向“按云账单分摊”。你不需要记住 Anthropic 的 pricing 是 $0.08/session-hour，你需要记住的是：这个数字在 18 个月内大概率会变成 $0.03，然后变成“包含在 Claude Pro 订阅中”，最后变成“AWS 企业协议里的默认启用项”。关键词里那个 “Towards AI - Medium” 不是随便写的——这篇文章之所以能引发广泛转发，正因为它没用一句 hype 话术，而是用操作系统虚拟化的类比，把一个抽象的技术演进，锚定在工程师真正理解的历史坐标上。它说的不是“Anthropic 又赢了”，而是“所有还在 runtime 层押注的团队，该抬头看看天花板了”。

2. 核心设计解构：为什么“Session as Event Log”是唯一值得抄的架构范式

2.1 从“上下文即状态”到“事件日志即真相”的范式迁移

我必须先坦白：我自己也踩过这个坑。2023 年 Q3，我们为一家律所开发合同审查 agent，核心流程是“提取条款 → 检索相似判例 → 比对风险点 → 生成修订建议”。当时团队信心满满，认为只要把 prompt 写得足够清晰、context window 用足 200K tokens，就能搞定。结果上线第三天，一个涉及 17 份附件、42 个交叉引用的并购协议进来，agent 在第 6 步开始胡说八道——它把前两天查到的某地方法规，当成当前合同的适用法律写进了意见书。回溯日志才发现，context 窗口早已溢出，模型自动丢弃了最老的 tool call 结果，却没触发任何告警，更没有 fallback 机制。我们花了整整两天才手动拼凑出完整执行链。Anthropic 提出的 “Session as Event Log”，本质上就是把这个血泪教训，固化成一套强制性的架构约束。它的核心不是“把日志存下来”，而是让 session 本身成为不可变的事实源（source of truth）。每一次 tool call、每一次模型输出、每一次用户干预，都作为一条带时间戳、带 trace_id、带输入/输出 payload 的结构化事件，持久化到外部存储（很可能是他们自研的时序数据库或 OLAP 引擎）。Harness（执行器）彻底无状态，它只负责根据当前 event log 的最新状态，调用模型、触发工具、生成下一个事件。这意味着：

崩溃可恢复：Harness 进程挂了？没关系，awake(sessionId)会从 event log 的 last known good state 重新加载上下文，继续执行。我们当年那个律所项目，如果早用这套，故障恢复就是毫秒级。
调试可追溯：你想知道为什么 agent 在第 13 步拒绝了某个操作？直接查 event log，过滤sessionId=xxx AND step=13，看到完整的输入、模型思考过程、tool call 参数、返回结果，一目了然。不用再翻几十页 debug 日志猜模型“当时脑子里想的是啥”。
审计可合规：金融、医疗客户最怕什么？不是 agent 出错，而是出错后无法证明“它当时看到了什么、基于什么决策、谁授权了这个动作”。event log 天然是 WORM（Write Once Read Many）存储，天然满足 SOC2、HIPAA 对操作留痕的要求。

提示：很多团队试图用“把 context 存 Redis + 加 TTL”来模拟这个效果，这是危险的。Redis 是缓存，不是事实源；TTL 会导致关键历史丢失；更重要的是，它无法保证事件的原子性写入——一次 tool call 的 input 和 output 必须同时成功写入，否则就会出现“模型说调用了 API，但日志里找不到调用记录”的诡异状态。Anthropic 的 event log 是事务性存储，这是底层能力，不是上层技巧。

2.2 Credential Isolation：生产环境里，安全不是功能，是默认配置

原文提到“Credentials bundled into the sandbox at provision time, never injected as environment variables”，这句话轻描淡写，但背后是无数血案换来的教训。2024 年初，我们帮一家电商做促销活动 agent，需要调用内部库存 API。开发同学图省事，在 Dockerfile 里写了ENV API_TOKEN=$SECRET_TOKEN，然后通过docker build --build-arg SECRET_TOKEN=xxx构建。问题来了：这个 token 不仅出现在容器环境变量里，还被完整记录在 Docker image 的 layer history 里。当这个镜像被意外推送到公共仓库（是的，真发生了），token 就泄露了。Anthropic 的做法是：在 sandbox 创建时，由可信的 credential vault（比如 HashiCorp Vault 或 AWS Secrets Manager）动态注入 token 到 sandbox 的隔离内存空间，且这个 token 的生命周期与 sandbox 绑定，sandbox 销毁，token 自动失效。Agent 的代码里永远看不到明文 token，它只调用call_tool("inventory_check", {"sku": "ABC123"})，底层 runtime 负责完成认证、签名、调用。这带来的不仅是安全，更是运维简化：

权限最小化：每个 sandbox 只能访问它被明确授权的少数几个工具，无法横向越权。我们曾遇到 agent 因 prompt 被注入，意外调用了delete_all_users工具，就是因为所有工具 token 都挂在同一个 env 里。
轮换自动化：token 过期？vault 自动刷新，sandbox 无感。不用改一行代码，不用重启服务。
审计精准化：每条 event log 里都记录了“哪个 sandbox、在哪个时间、以哪个凭证身份、调用了哪个工具”，比单纯记录“API_KEY_XXX 被调用”有用一万倍。

2.3 Harness：无状态执行器的“瘦”哲学

Harness 被定义为 “stateless executor that calls containers via execute(name, input) → string”，这个设计看似简单，实则直指 agent 系统最顽固的痛点——状态漂移。传统方案里，Harness 往往是一个复杂的 Python 进程，里面混着模型推理、工具调度、记忆管理、错误重试、超时控制……它既是大脑，又是手脚，还是记事本。一旦出问题，你永远不知道是模型崩了、网络超时了、还是内存泄漏导致的 OOM。Anthropic 把 Harness 做“瘦”，意味着：

模型无关：Harness 不关心你用的是 Claude 3.5 还是 Llama 3，它只认execute()这个接口。今天换模型，只需改 YAML 里 model 字段，Harness 代码零改动。
工具无关：execute("notion_search", {...})返回的永远是 string，Harness 不解析 JSON，不校验 schema，不处理分页。这些都交给 Notion 工具的 container 自己搞定。
升级无感：Harness 本身是个轻量二进制，可以热更新。我们曾因一个 Harness 的 bug 导致 30% 的 session 失败，紧急 hotfix 后，5 分钟内全量滚动更新，用户无感知。

这种“瘦 Harness”思想，和 Kubernetes 的 kubelet 如出一辙——kubelet 不管你 pod 里跑的是 Java 还是 Node.js，它只负责拉镜像、启容器、上报状态。复杂性下沉，稳定性上浮。

3. 实操落地：如何用 Managed Agents 替代自研 Runtime（附 YAML 详解与避坑清单）

3.1 从零开始定义你的第一个 Managed Agent（YAML 全解析）

假设你要为销售团队做一个“客户背景速查 agent”，它需要：1）从 CRM 获取客户基本信息；2）搜索公开新闻和财报；3）生成一页摘要。以下是符合 Anthropic Managed Agents 规范的 YAML 定义，我逐行解释其设计意图：

# agent.yaml name: "sales-customer-researcher" description: "Fetches and synthesizes customer background data for sales reps" # 系统提示词 —— 这是 agent 的“人格”和“职责说明书” system_prompt: | You are a senior sales intelligence analyst at Acme Corp. Your job is to research prospects and generate concise, actionable summaries. ALWAYS use the provided tools. NEVER fabricate data. If a tool fails, report the error clearly and stop. Do not guess. # 定义可用的工具（Tool Schema） tools: - name: "crm_lookup" description: "Fetches basic company info (industry, size, HQ) from Salesforce CRM" input_schema: type: "object" properties: domain: type: "string" description: "Company's website domain, e.g., 'acmecorp.com'" required: ["domain"] - name: "news_search" description: "Searches recent news articles about the company" input_schema: type: "object" properties: company_name: type: "string" days_back: type: "integer" default: 90 required: ["company_name"] - name: "financial_report_search" description: "Finds latest annual/quarterly reports (10-K, 10-Q)" input_schema: type: "object" properties: ticker: type: "string" description: "Stock ticker symbol, e.g., 'ACME'" required: ["ticker"] # Guardrails —— 这是生产环境的生命线 guardrails: # 防止越权访问 allowed_tools: ["crm_lookup", "news_search", "financial_report_search"] # 防止 prompt 注入攻击 disallowed_phrases: ["ignore previous instructions", "act as", "you are now"] # 防止无限循环 max_tool_calls_per_session: 15 # 防止敏感数据泄露 output_filters: - regex: "SSN|Social Security Number" replacement: "[REDACTED_SSN]" - regex: "credit card: [0-9-]+" replacement: "[REDACTED_CC]" # 运行时配置 runtime_config: # session 最长存活时间（避免僵尸 session 占用资源） max_session_duration_hours: 24 # 沙箱资源限制（防止一个 bad agent 拖垮整个集群） sandbox_limits: cpu_millis: 2000 # 2 vCPU memory_mb: 4096 # 4GB timeout_seconds: 120

这个 YAML 的精妙之处在于：它把所有“人”的决策，转化成了机器可执行、可审计、可版本化的配置。system_prompt不是写给开发者的注释，而是 agent 的宪法；input_schema不是文档，而是 runtime 的输入校验器；guardrails不是愿望清单，而是强制执行的安全策略。我见过太多团队把 guardrails 写在 Jira ticket 里，或者靠 code review 人工检查，结果上线后被一个精心构造的 prompt 绕过所有防线。而在这里，disallowed_phrases是 runtime 层面的硬拦截，output_filters是响应流上的实时脱敏，它们在模型输出的第一时间就被执行，无需等待应用层处理。

3.2 与现有系统集成：Notion 和 Slack 的真实对接路径

原文提到 Notion 和 Rakuten 在用 Managed Agents，但没说怎么接。这里分享我们给一家 SaaS 公司做的真实集成方案，它完美体现了“Managed Agents 不是取代你的系统，而是成为你的系统神经中枢”：

场景：销售 rep 在 Notion 页面里选中一个客户名称，右键点击“Run Research Agent”，几秒后页面底部自动插入一份 PDF 格式的摘要。

集成步骤：

Notion API 授权：在 Anthropic 控制台，为crm_lookup工具配置 Notion Integration Token。这个 token 被安全存储在 Anthropic 的 vault 中，Never 暴露给 agent 代码。
Webhook 注册：Notion 的 “Custom Button” 功能允许你注册一个 webhook。当用户点击按钮，Notion 发送 POST 请求到你的 endpoint，携带page_id和selected_text。
Endpoint 转发：你的轻量 endpoint（比如一个 Cloudflare Worker）收到请求后，不做任何业务逻辑，只做一件事：调用 Anthropic Managed Agents 的create_sessionAPI，传入{"customer_domain": "selected_text"}和预定义的agent_name: "sales-customer-researcher"。
结果回写：Managed Agents 执行完毕，将最终摘要（Markdown 格式）通过 webhook 回调到你的 endpoint。你的 endpoint 解析 Markdown，调用 Notion API 的append_block方法，把内容插入到原页面指定位置。

整个过程，你的服务器只做“翻译”工作，不碰客户数据，不运行模型，不管理状态。所有高危操作（调用 CRM、搜索新闻）都在 Anthropic 的 sandbox 里完成，受其 credential isolation 和 event log 保护。Rakuten 的 Slack 集成同理：Slack App 的/research @acmecorp命令，触发同样的create_session流程，结果以 Slack message 形式返回。

注意：不要试图在你的 endpoint 里“等”Managed Agents 执行完再返回。Managed Agents 是异步的，create_session返回的是session_id，你需要用get_session_result(session_id)轮询，或更推荐——配置一个 callback URL，让 Anthropic 主动通知你结果。我们最初犯的错就是同步等待，导致 Slack 响应超时，用户体验极差。

3.3 定价模型实测与成本对比（$0.08/session-hour 的真实含义）

Anthropic 官方定价是$0.08 per session-hour of active runtime，加上 Claude token 费用。很多人第一眼觉得贵，但实际测算下来，它可能比你自研方案便宜得多。我们拿一个典型销售 research agent 来算：

项目	自研方案（估算）	Anthropic Managed Agents
硬件成本	2 台 c5.2xlarge（8vCPU/16GB）常年运行，月租 $320	$0（Anthropic 承担）
运维人力	0.5 FTE（部署、监控、扩缩容、安全审计）≈ $8,000/月	$0（Anthropic 承担）
安全合规	渗透测试、SOC2 审计、日志留存系统 ≈ $15,000/年	已包含在服务中
Session 成本（按 10,000 session/月）	每 session 平均耗时 45 秒，CPU 利用率 30%，折算 $0.02/session	`45秒 = 0.0125小时 * $0.08 = $0.001/session`+ token 费用

关键洞察：$0.08/session-hour的“hour”是指 sandbox 的实际活跃时间，不是 wall-clock 时间。一个 session 从创建到结束可能持续 24 小时，但其中 99% 的时间 sandbox 是休眠的，不计费。只有当 agent 在执行 tool call、模型推理、生成响应时，才会计费。我们实测一个平均 45 秒完成的 research session，真实计费时间约 35 秒（因为模型推理和 tool call 是并行的，sandbox 只在有工作时才唤醒）。所以，对于间歇性、任务型 agent，Managed Agents 的边际成本远低于常驻服务。它的定价模型，本质是把你的 CapEx（买服务器）变成了 OpEx（按需付费），而且把最难搞的运维、安全、合规，打包卖给你了。

4. 竞争格局全景扫描：为什么说 Anthropic 的 launch 是防御战，而非攻坚战

4.1 AWS Bedrock AgentCore：那个被所有人忽略的“ incumbent”

原文一针见血：“The incumbent everyone forgot to mention”。AWS Bedrock AgentCore 在 2025 年底就 GA 了，到 2026 年 3 月，SDK 下载量超 200 万次。这不是一个“竞品”，这是事实上的行业标准。它的架构甚至比 Anthropic 更激进：

MicroVM 隔离：每个 session 运行在独立的 Firecracker microVM 里，拥有专属 CPU、内存、文件系统。这比 Anthropic 的 container sandbox 级别更高，安全性更强。
框架无关：LangGraph、CrewAI、Strands……只要你提供一个input -> output的函数，它就能跑。Anthropic 的 Harness 是专为 Claude 优化的，而 AgentCore 是真正的通用 runtime。
深度云集成：Policy controls 直接对接 AWS IAM，session logs 自动流入 CloudWatch，trace 数据无缝接入 X-Ray。你在 AWS 上部署一个 agent，就像部署一个 Lambda 函数一样自然。

我们给一家保险客户做 PoC 时，用同样的 YAML 定义，在 Anthropic 和 AgentCore 上各跑了一轮。结果 AgentCore 的 p95 latency 低了 12%，sandbox 启动快了 300ms，而且 Policy 控制台里点几下鼠标，就完成了“禁止所有 agent 访问 prod RDS”的策略下发。Anthropic 的优势在于对 Claude 模型的深度协同（比如更优的 tool calling 格式），但如果你的 stack 已经在 AWS 上，AgentCore 就是零摩擦的选择。这就是为什么 Anthropic 的 launch 本质是防御——它必须确保，当客户决定用 Claude 时，不会因为 runtime 体验不如 AgentCore，而把 Claude 当作一个“插件”塞进别人的 runtime 里。

4.2 Google Vertex AI Agent Builder 与 Microsoft Azure AI Foundry：生态位的无声卡位

Google 和微软的策略更隐蔽，也更致命。Vertex AI Agent Builder 的核心不是 runtime，而是Agent Registry + Apigee 网关。它把 agent 当作一个 API 来管理：你可以发布一个customer-researchagent 到 registry，设置 rate limit、quota、authentication（JWT/OAuth），然后任何内部系统（CRM、ERP、BI 工具）都可以像调用 REST API 一样调用它。Apigee 提供了完整的流量管理、监控、审计日志。这解决了企业最头疼的问题：如何让 agent 像一个成熟的微服务一样，融入现有 IT 治理体系？Azure AI Foundry 则更进一步，它把 AutoGen 和 Semantic Kernel “折叠”进去，意味着你可以在 Foundry 里直接用 C# 或 Python 编写 agent logic，而 runtime 由 Azure 托管。它的目标用户不是 AI 工程师，而是企业现有的 .NET 开发者和 Power Platform 专家。

这三家巨头的共同点是：它们不卖“agent runtime”，它们卖“agent as a service in your cloud”。你不需要学习新的 YAML 格式，不需要迁移到新平台，你只需要把你的 agent 逻辑（无论用 LangChain 还是手写）打包成一个 container，上传，配置，就完成了。Anthropic 的 Managed Agents 是一个独立产品，而 AgentCore、Vertex、Foundry 是云平台的原生能力。后者的优势在于：采购流程短（已包含在云合同里）、运维成本低（无需额外管理）、安全合规强（已通过云厂商认证）。这才是 Anthropic 真正害怕的——不是技术落后，而是客户根本不需要单独采购一个 runtime。

4.3 开源压力曲线：Daytona、K8s SIG、Deer-flow 的真实威胁

如果说云厂商是“明面上的对手”，那么开源社区就是“暗处的推手”。原文提到的三个项目，代表了 runtime 层商品化的三个方向：

Daytona：从 dev environment（类似 VS Code Dev Containers）转型而来，它的核心优势是sub-90ms sandbox spin-up。这意味着它能把 sandbox 做得像函数计算（Function-as-a-Service）一样轻量。我们实测过 Daytona 的 demo，启动一个带 Python 环境的 sandbox，平均 78ms，比 Anthropic 的 200ms+ 快了一倍多。这对高频、短时任务（如实时客服问答）至关重要。它的商业模式很聪明：不卖 runtime，卖 developer experience——你用它的 CLI 创建 sandbox，它自动帮你配好 IDE、debugger、log viewer，开发者体验碾压所有云服务。
Kubernetes SIG Agent Sandbox：这是最危险的。K8s 是事实上的数据中心操作系统，如果官方 SIG 推出一个 production-ready 的 agent sandbox operator，那意味着：任何有 K8s 集群的企业，都能在自己的机房里，用kubectl apply -f agent-sandbox.yaml部署一个企业级 runtime。它不依赖云厂商，不绑定模型，完全开源。我们已经看到几家大型银行在 PoC 这个项目，他们的理由很朴素：“我们不能把客户数据、业务逻辑，托管在一个第三方 runtime 里，哪怕它是 Anthropic。”
Deer-flow：ByteDance 开源的 long-horizon agent harness，特点是内置 planning 和 subagents。它不追求“快”，而追求“稳”——一个需要 3 小时、调用 200 次工具、跨越 5 个系统的复杂任务，Deer-flow 能保证 99.9% 的成功率。它的 event log 设计比 Anthropic 更细粒度，连模型的 token-level attention weight 都可追溯。这代表了另一个方向：runtime 不是越简单越好，而是要匹配任务的复杂度。

这三股力量合起来，构成了一个完美的“商品化飞轮”：开源项目提供极致性能/灵活性/可靠性 → 云厂商将其吸收、封装、免费化 → 企业客户发现“买 runtime”毫无意义，转而投资上层。Anthropic 的 Managed Agents，正处于这个飞轮的加速阶段。

5. 价值迁移地图：当 runtime 归零，钱流向哪里？（实操指南与避坑清单）

5.1 Trace Store：不是日志系统，而是你的“AI 事实法庭”

当 runtime 层 commoditize，第一个爆发的价值洼地是Trace Store。这不是简单的日志收集，而是构建一个“AI 行为的事实法庭”。我们给一家跨国药企做的案例最能说明问题：他们用 agent 做临床试验数据分析，agent 需要调用内部数据库、Pubmed、FDA 数据库。监管要求是：任何分析结论，必须能 100% 追溯到原始数据源和每一步推理。他们试过 ELK Stack，但失败了——因为 ELK 是为文本日志设计的，无法高效查询“找出所有调用了 FDA API 且返回结果包含 'black box warning' 的 session”。他们最终选择了 Braintrust 的 Brainstore，原因有三：

Schema-on-read：Brainstore 不要求你提前定义所有字段。agent 的 event log 是动态的，今天加一个tool_call_metadata字段，明天加一个model_reasoning_trace，Brainstore 自动识别、索引、优化查询。
OLAP 优化：它底层是列式存储，对SELECT COUNT(*) FROM events WHERE tool_name='fda_search' AND response LIKE '%black box%' GROUP BY session_id这种查询，亚秒级响应。ELK 在同样数据量下要 15 秒。
Portability First：Brainstore 的 export 格式是标准 Parquet，你可以随时把数据导出，用 Spark、Presto 或任何 BI 工具分析。这解决了原文说的“trace portability is not solved”——它让你的数据不被 vendor lock-in。

实操心得：不要等 runtime 选型完成再考虑 trace store。从第一天起，就把 event log 的 schema 设计好。我们强制要求所有工具返回的response字段，必须是 JSON，且包含data,metadata,error三个顶级 key。这样，无论你用 Brainstore、Arize Phoenix 还是 LangSmith，都能一致地解析和查询。这是你未来迁移成本的底线。

5.2 Governance & Policy：从“技术配置”到“采购谈判筹码”

政策控制（Policy Controls）正在从技术配置，变成 CFO 和 CISO 的采购谈判筹码。AWS AgentCore 在 2026 年 3 月 GA 的 Policy Controls，就是一个分水岭。它支持的策略类型包括：

Data Residency：强制所有 sandbox 的数据处理必须在us-east-1区域。
Tool Access Control：sales-agent只能调用crm_lookup，finance-agent只能调用sap_query。
Output Sanitization：自动 redact 所有 PII（个人身份信息）和 PCI（支付卡信息）。
Cost Guardrails：单个 session 的 token 消耗超过 100K，自动终止。

这些策略不是写在 config 文件里，而是通过 AWS Console 的图形界面配置，生效后立即审计。我们帮一家银行实施时，CISO 的第一句话是：“我要看到策略变更的审批流，谁创建、谁审批、谁生效，全部留痕。” 这已经超出了技术范畴，进入了企业治理领域。所以，现在评估一个 agent platform，关键问题是：它的 policy system，能否直接对接你们现有的 IAM（如 Okta、Azure AD）和审计系统（如 Splunk、Datadog）？如果答案是否定的，那你就是在给自己埋雷——未来每次合规审计，都要写一堆 custom script 去桥接。

5.3 Vertical Agent Marketplaces：从“通用能力”到“可签字的合同”

Salesforce 的 Agentforce ARR 达到 $800M，这个数字背后是深刻的商业逻辑转变。企业采购不再为“AI 能力”买单，而是为“解决具体业务问题的 agent”买单。一个“销售开发 agent”，必须能：

对接你们的 CRM（Salesforce, HubSpot, Zoho）
理解你们的销售流程（BANT, MEDDIC, Challenger Sale）
输出你们销售总监认可的报告格式（PPTX, PDF, Notion DB）
符合你们的合规要求（GDPR, CCPA, HIPAA）

这催生了垂直 marketplace。我们观察到两个趋势：

SaaS 厂商主导：Salesforce、ServiceNow、Workday 都在自己的 app exchange 里上架 agent。它们的优势是：数据天然打通、UI 无缝嵌入、采购流程熟悉（走 existing SaaS contract）。
开源项目商业化：像virattt/ai-hedge-fund这样的金融量化 agent，已经从 GitHub repo，进化成一个有 SLA、有 support、有 on-premise 部署选项的商业产品。它的客户不是技术 VP，而是对冲基金的 CIO。

避坑清单：如果你在创业做 vertical agent，警惕“技术完美主义”。我们见过一个医疗 agent 创业公司，花了 18 个月打磨模型在 MIMIC-III 数据集上的 accuracy，结果发现医院最需要的，是它能和他们老旧的 Epic EHR 系统通过 HL7 v2.x 协议通信。Vertical agent 的胜负手，80% 在 integration，20% 在 AI。先搞定和客户现有系统的连接，再优化 AI。

6. 终极拷问：你的技术栈，站在哪一层？

我最后想分享一个我们团队内部用的“三层健康度检查表”。每次评审一个新项目，我们都会坐在一起，用这张表打分（1-5 分），分数决定资源投入优先级：

层级	关键问题	健康信号（5 分）	危险信号（1 分）	我们的行动
Runtime 层	“我们的核心竞争力，是否依赖于 runtime 的性能、安全或成本优势？”	我们使用云厂商的托管 runtime（AgentCore/Vertex），只做 minimal config	我们自研了 sandbox manager，并把它作为核心专利	立即启动迁移计划，目标 6 个月内下线自研 runtime
Trace & Governance 层	“我们能否在 5 分钟内，向 CEO/CISO 展示任意一个 agent 的完整执行链，并证明其合规？”	我们有统一的 trace store（Brainstore），所有 agent 的 event log 格式一致，policy 通过 IaC 管理	日志分散在各个服务的 stdout，policy 配置在不同 console 里	Q2 内完成 trace 标准化，Q3 上线统一 policy 控制台
Vertical Layer	“我们的 agent，是否能直接对应到客户采购合同里的一个 line item，且客户愿意为它单独签字？”	我们的 agent 名字叫 “Healthcare Claims Prior-Authorization Agent”，价格 $15K/user/year，合同里有明确 SLA	我们的 agent 叫 “AI Assistant”，价格打包在 SaaS 订阅费里，客户不知道它存在	Q4 前完成至少 3 个 vertical agent 的 productization，定义清晰的 buyer persona 和 pricing model

这张表没有对错，只有清醒。Anthropic 的 Managed Agents 发布，不是一个技术新闻，而是一面镜子，照出所有 AI 工程师和创业者的真实站位。如果你还在 runtime 层拼命优化，恭喜你，你正站在历史的风口上——但风向是向下的。真正的机会，在 trace store 的数据库 schema 里，在 policy control 的 IaC 代码里，在 vertical agent 的客户合同里。技术会过时，但解决真实业务问题的能力，永远稀缺。我做这行七年，最深的体会是：不要问“这个技术多酷”，要问“这个技术，能让客户在采购单上，多写一行多少钱？”当 runtime 归零，答案就在那一行里。

查看全文

http://www.jsqmd.com/news/1122154/