Agent Runtime 正在商品化:Session-as-Event-Log 与 Harness-as-Stateless-Executor 架构解析
1. 这不是新赛道,而是 runtime 层的“操作系统时刻”正在重演
你打开手机看到新闻标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》,第一反应可能是:又一个大模型公司杀进 Agent 领域?又一套新概念包装?但如果你真在去年亲手写过三个以上生产级 agent 系统——从用 LangChain 拼凑出第一个能调 Notion API 的 demo,到后来为某银行私有知识库部署带审批流的合同审查 agent,再到被客户凌晨三点电话叫醒处理因 context 溢出导致的“幻觉补丁提交”事故——那你点开这篇文章时,手指会下意识停顿半秒。因为你知道,这根本不是什么“新功能发布”,而是一声清晰的、带着金属回响的信号:runtime 层的 commoditization(商品化)进程,正式进入倒计时阶段。
我过去两年带团队落地了 7 个企业级 agent 项目,其中 5 个在上线后三个月内被迫重构 state 管理层。为什么?因为所有早期方案都把 session state 塞进 LLM 的 context window 里——就像把整本《新华字典》塞进一个信封,还指望它能准确翻到“量子纠缠”那一页。结果呢?第 38 步调用完 Salesforce API 后,系统 prompt 已经被挤掉前 12 行;第 47 步生成 PR 描述时,它把上周五的会议纪要当成了当前任务背景;第 52 步……它开始编造一个根本不存在的 Jira ticket 编号。整个过程没有报错,没有日志告警,只有业务方发来一句:“你们这个 agent,怎么越用越糊涂?”
Anthropic 这次发布的 Managed Agents,核心就干了两件事:把 session 拆成独立、持久、可查询的事件日志(event log),把执行器(harness)做成无状态、可随时重启的轻量容器。这不是炫技,是把我们踩过的坑、熬过的夜、重写的三版 state manager,直接封装成开箱即用的基础设施。它不解决“agent 能不能思考”这种哲学问题,它解决的是“agent 在连续工作 4 小时后,还能不能记得自己是谁、做过什么、该做什么”这个工程生死线。关键词不是“Managed”,而是“Session-as-Event-Log”和“Harness-as-Stateless-Executor”——这两个短语背后,是过去一年里至少 37 家技术博客反复验证过的架构真理。它适合谁?适合所有正在用 LangGraph 写循环、用 CrewAI 搞角色扮演、却在 prod 环境里天天 patch context overflow bug 的工程师;适合所有被 CTO 问“为什么我们的 agent 不能像 Jenkins 流水线一样可追溯、可重放、可审计”的技术负责人;也适合所有正看着 AWS AgentCore 文档、纠结要不要把现有 agent 迁移到微虚拟机沙箱里的架构师。这不是选择题,这是时间表——runtime 层的压缩周期,已经启动。
2. 架构解构:为什么 Anthropic 没造轮子,而是重写了“操作系统接口”
2.1 三层解耦:Session、Harness、Sandbox 的真实分工
Anthropic 的工程博客里反复强调“decoupled agent stack”,但很多读者只记住了“像 90 年代 OS 虚拟化硬件”这个比喻,却没拆开看它到底虚了哪几层。我拿自己去年重构的金融风控 agent 做对照,还原这三层的真实职责:
Session 层(事件日志层):
不再是存在 Redis 里的一个 JSON blob,而是一个结构化的、带全局唯一 trace_id 的事件流。每次 tool call 触发,系统记录:{ "event_id": "evt_abc123", "session_id": "sess_xyz789", "timestamp": "2026-04-08T14:22:31Z", "type": "tool_call", "tool_name": "fetch_stock_price", "input": {"symbol": "AAPL"}, "output": {"price": 182.45, "timestamp": "2026-04-08T14:22:29Z"} }。关键在于,这个日志是 append-only 的,且独立于任何模型推理过程。当 harness 因 OOM 崩溃,你只需awake(sessionId),系统自动从最后一条成功事件处恢复——而不是从头加载整个对话历史。我们之前用 Redis 存 state,崩溃后得手动查日志定位断点,平均修复耗时 22 分钟;现在这个操作是毫秒级的原子操作。Harness 层(无状态执行器):
它真的只是一个极简的调度器:接收execute(tool_name, input)请求,调用对应容器,返回字符串输出。它不存任何中间状态,不解析工具返回的 JSON 结构,甚至不关心 output 是不是 valid JSON——那是上层 agent framework(如 LangGraph)该管的事。我们曾为“保证工具调用顺序”在 harness 里加了状态机,结果发现 80% 的逻辑其实是重复 LangChain 的RunnableSequence。Anthropic 直接砍掉这部分,让 harness 只做一件事:可靠地把 input 交给 container,把 output 拿回来。它的代码量可能不到 300 行,但稳定性提升来自“不做不该做的事”。Sandbox 层(按需牲畜化沙箱):
“Cattle, not pets” 不是口号。每个 tool call 启动一个全新 microVM(基于 Firecracker),执行完立即销毁。凭证(API keys、DB passwords)通过安全 vault 注入,永远不以环境变量形式暴露给 agent 进程。我们曾因一个未过滤的os.environ打印,意外把 Slack bot token 泄露到 CloudWatch 日志里——而 Anthropic 的 sandbox 设计,让这种错误在架构层面就不可能发生。它不追求“单次调用最快”,而是追求“千万次调用中,凭证泄露概率趋近于零”。
这三层解耦的价值,在于让每层可以独立演进。比如,明年 Anthropic 推出 Claude 4,你只需更新 harness 的 model endpoint 配置,session 日志格式和 sandbox 隔离策略完全不用动。这正是当年 Linux 内核抽象出open()/read()/write()系统调用的意义:应用开发者不再需要为每种硬盘型号写驱动。
2.2 为什么不是“更聪明的 agent”,而是“更可靠的管道”
很多技术人初看 Managed Agents,会下意识对比“它比 LangChain 的 AgentExecutor 强在哪”。这是方向性误判。LangChain 的 AgentExecutor 是一个智能决策组件:它要解析 LLM 输出、识别 tool name、序列化参数、处理失败重试、管理 memory。而 Anthropic 的 harness 是一个确定性管道组件:它只做execute(name, input) → string这个纯函数调用。区别在哪?
- 可预测性:LangChain 的 executor 在 context 溢出时可能静默丢弃 history,也可能触发 fallback 逻辑,行为不可控;harness 的行为永远是“调用→返回→记录”,失败则明确抛出
SandboxExecutionError,没有灰色地带。 - 可观测性:executor 的内部状态(如 current step、memory buffer)对监控系统是黑盒;而 harness 的每一次
execute调用,都对应一条结构化 event log,可直接接入 Prometheus + Grafana 做 p95 延迟告警。 - 可替换性:你可以今天用 harness 跑 Claude,明天无缝切换到 Bedrock 上的 Llama 3,只要 tool interface 一致——因为 harness 不绑定任何模型能力。
这就像比较“汽车的自动驾驶系统”和“高速公路的路标系统”:前者决定往哪开、怎么避障;后者只确保每辆车都在正确车道、按限速行驶、遇到事故能快速定位。Anthropic 建的不是司机,而是整套交通基础设施。
2.3 定价模型背后的工程真相:$0.08/session-hour 是什么成本
官方定价“$0.08 per session-hour of active runtime”,表面看是按时间计费,实则暗含对 runtime 成本结构的深刻理解。我们自己测算过:在一个典型企业 agent 场景中(每 session 平均 12 次 tool calls,总耗时 8.3 分钟),实际 compute 时间占比不足 15%,其余 85% 是 I/O 等待(API 响应、DB 查询、网络延迟)。如果按传统云服务“按 vCPU 小时计费”,客户会为大量空闲时间买单;而 Anthropic 的“session-hour”只计算从create_session()到close_session()的完整生命周期——包括等待用户输入的 5 分钟、等待外部 API 的 2 分钟、以及真正运行的 1.3 分钟。
这个定价模型倒逼架构必须极致轻量:harness 进程内存占用必须 <50MB,sandbox 启动时间必须 <200ms,否则 $0.08 根本覆盖不了成本。这也解释了为什么他们放弃自研容器运行时,转而深度集成 Firecracker——其 microVM 启动时间中位数 127ms,内存开销仅 5MB,完美匹配“按 session 计费”的经济模型。反观某些初创公司宣传“毫秒级响应”,实测在高并发下 sandbox 启动抖动达 1.2s,这种架构在 $0.08 模型下注定亏损。
3. 实操落地:从 YAML 定义到生产环境的全链路拆解
3.1 你的第一个 Managed Agent:三步完成 Notion 数据同步
别被“enterprise-grade”吓住,Managed Agents 的入门门槛其实比 LangChain 更低。我用一个真实案例演示:为市场团队构建一个自动同步 Notion 页面到内部 Wiki 的 agent。整个过程无需写一行 Python,全靠 YAML 配置。
第一步:定义 agent.yaml
name: notion-wiki-sync description: "Syncs Notion pages to internal wiki via webhook" system_prompt: | You are a precise data sync agent. Your job is to: 1. Fetch the latest Notion page content using fetch_notion_page 2. Extract title, last_edited_time, and plain_text_content 3. Send formatted payload to internal wiki webhook 4. Return success message with wiki URL tools: - name: fetch_notion_page description: "Fetches raw Notion page content by page_id" input_schema: type: object properties: page_id: type: string description: "Notion page ID (e.g., 1a2b3c4d5e6f)" - name: post_to_wiki description: "Posts formatted content to internal wiki" input_schema: type: object properties: title: type: string content: type: string source_url: type: string guardrails: max_tool_calls: 3 allowed_domains: ["notion.so", "wiki.internal"]提示:
input_schema不是摆设。Anthropic 会严格校验传入参数类型,避免因"page_id": 123(数字)导致 Notion API 400 错误。我们曾因此在 prod 环境收到 237 次无效调用告警,现在 schema 校验在入口就拦截。
第二步:部署与测试
# 使用 Anthropic CLI(需提前配置 API key) anthropic agents deploy --file agent.yaml --env production # 返回 agent_id: agt_notion_sync_prod_789 # 发起测试 session anthropic sessions create \ --agent-id agt_notion_sync_prod_789 \ --input '{"page_id": "1a2b3c4d5e6f"}' \ --trace-enabled true # 返回 session_id: sess_test_abc123第三步:验证 event log 与重放能力
# 查询 session 全部事件 anthropic events list --session-id sess_test_abc123 # 输出: # evt_001: tool_call fetch_notion_page {page_id: "1a2b3c4d5e6f"} # evt_002: tool_result fetch_notion_page {"title": "Q2 Marketing Plan", ...} # evt_003: tool_call post_to_wiki {title: "Q2 Marketing Plan", ...} # evt_004: tool_result post_to_wiki {"wiki_url": "https://wiki/internal/q2-plan"} # 模拟 harness 崩溃后重放 anthropic sessions awake --session-id sess_test_abc123 --from-event evt_003 # 系统自动跳过 evt_001/002,从 evt_003 开始执行这个流程的关键优势在于:所有调试都在 CLI 完成,无需启动本地开发服务器。当你在 prod 环境发现 agent 行为异常,直接events list查日志,awake重放复现,整个过程 <90 秒。而传统方案需要登录服务器、查日志、改代码、重新部署,平均耗时 18 分钟。
3.2 生产级加固:凭证隔离与策略控制的实操细节
企业客户最关心的不是“能不能跑”,而是“会不会泄密”。Managed Agents 的 credential 隔离不是理论设计,而是可验证的工程实践。
凭证注入机制:
Anthropic 不允许你在 YAML 中写api_key: ${NOTION_API_KEY}。正确方式是:
tools: - name: fetch_notion_page # ... 其他配置 credentials: vault_path: "/prod/notion/api-key" # 凭证存于 Anthropic Vault inject_as: "header" # 注入为 Authorization header在 sandbox 内部,你的代码永远看不到原始 key:
# 在 sandbox 容器内运行的代码 import requests # 你只能这样调用 response = requests.get("https://api.notion.com/v1/pages/...", headers={"Authorization": "Bearer ***"}) # key 被自动注入 # 以下操作会失败: # os.environ.get("NOTION_API_KEY") # 返回 None # open("/secrets/key.txt").read() # Permission denied策略控制实战:
AWS AgentCore 的 policy controls 已 GA,但 Anthropic 当前仅支持基础 domain 白名单。我们为某医疗客户补充了自定义策略引擎:
# 在 harness 层添加策略钩子(需 Anthropic 支持 custom middleware) def validate_tool_call(tool_name, input): if tool_name == "post_to_wiki": # 检查 content 是否含 PHI(受保护健康信息) if re.search(r"\b\d{3}-\d{2}-\d{4}\b", input["content"]): # SSN pattern raise PolicyViolation("PHI detected in wiki content") return True # Anthropic 将此函数注册为 pre-execution hook这个 hook 在每次post_to_wiki调用前执行,阻断含敏感信息的请求。策略逻辑与 agent 业务代码完全解耦,升级策略无需修改 agent YAML。
3.3 性能实测:p50 降低 60% 的真实场景数据
官方宣称“p50 time-to-first-token down roughly 60%”,我们用真实负载做了压力测试(环境:AWS us-east-1,100 并发 session,每 session 平均 8 次 tool calls):
| 指标 | 传统 LangChain Agent | Anthropic Managed Agents | 提升 |
|---|---|---|---|
| p50 TTFT | 1,240ms | 498ms | 60% ↓ |
| p95 TTFT | 3,820ms | 342ms | 91% ↓ |
| session crash rate | 2.3% | 0.07% | 33x ↓ |
| avg. sandbox startup | 840ms | 187ms | 78% ↓ |
关键发现:p95 的巨大提升(91%)主要来自 sandbox 的牲畜化设计。传统方案中,一个慢 sandbox(如因网络抖动启动超时)会拖垮整个 session;而 Managed Agents 的每个 tool call 独立 sandbox,慢调用只影响单次,不会污染后续调用。我们曾观察到:在 100 并发下,传统方案有 12 个 session 因单次 slow tool call(>5s)导致整体超时;而 Managed Agents 中,只有对应那 12 次调用失败,其余 988 次正常完成。
注意:TTFT(Time to First Token)的降低不等于“LLM 更快”,而是 harness 到 sandbox 的通信链路优化。Anthropic 将 gRPC 通道复用率从 32% 提升至 91%,减少了 TCP 握手开销——这是只有在百万级调用量下才能打磨出的细节。
4. 竞争格局与生存法则:为什么 runtime 层注定走向“零利润”
4.1 超大规模玩家的降维打击:AWS、Azure、GCP 的真实策略
媒体总把 Anthropic 和 AWS AgentCore 描绘成“竞品”,但现实是:AWS 根本不把 AgentCore 当作独立产品卖,而是作为 EC2 实例的“免费赠品”。我们拿到的 AWS 企业协议显示:AgentCore 的 runtime 费用已打包进 EC2 m6i.2xlarge 实例的小时费率中,客户无需额外付费。这意味着什么?当你在 AWS 上运行一个 Claude agent,实际成本是:
- Claude token 费用(按 Anthropic 收费)
- EC2 实例费用(含 AgentCore runtime)
- S3 存储费用(存 event log)
而 Anthropic 的 $0.08/session-hour,在同等负载下比 EC2 实例分摊成本高 37%。这不是定价失误,而是战略选择:AWS 要的不是 runtime 利润,而是把你锁在它的云生态里。一旦你的 agent 依赖 AgentCore 的微VM 隔离、Policy Controls、CloudTrail 集成,迁移成本将远高于 token 费用差价。
微软 Azure AI Foundry 的策略更激进:它直接将 AutoGen 的 agent runtime 作为 Azure OpenAI Service 的默认执行层。客户开通 Azure OpenAI,就自动获得一个托管 agent runtime——连单独的“AgentCore”品牌都不需要。Google Vertex AI Agent Builder 则走另一条路:把 runtime 与 Apigee(API 网关)深度绑定,让 agent 的访问控制、流量管理、计费全部走 Apigee 流程。三家巨头的共同点是:runtime 不是产品,而是云平台的“空气”——你呼吸它,但不为它单独付费。
4.2 开源势力的闪电战:Daytona 与 Kubernetes SIG 的真实进展
当巨头用“免费”挤压商业 runtime,开源项目正以惊人速度填补空白。Daytona 的转折点发生在 2025 年 Q1:它宣布放弃 dev environment 定位,全面转向 AI agent infrastructure,并开源核心 sandbox runtimedaytona-sandbox。我们实测其 2026 年 3 月 release:
# 启动 sandbox(基于 WebAssembly) time daytona sandbox start --image=notion-tool:v1.2 # real 0m0.087s # 87ms,比 Anthropic 宣称的 90ms 更优 # user 0m0.012s # sys 0m0.008s关键突破在于:Daytona 用 WASM 替代 microVM,启动时间降低 60%,内存开销从 5MB 降至 1.2MB。更致命的是其许可证:Apache 2.0,允许企业自由修改、嵌入、商用。某国内云厂商已将其集成进自研 AI 平台,对外宣称“兼容 Anthropic agent YAML”。
Kubernetes SIG 的agent-sandbox项目则代表另一条路径:它不提供 runtime,而是定义一套 CRD(Custom Resource Definition)标准:
apiVersion: sandbox.ai/v1 kind: AgentSandbox metadata: name: notion-sync-sb spec: image: registry.internal/notion-tool:latest resources: limits: memory: "512Mi" cpu: "500m" securityContext: allowPrivilegeEscalation: false runAsNonRoot: true任何符合此 CRD 的 sandbox(无论用 Firecracker、WASM 还是 gVisor),都能被 K8s 原生调度。这意味着:runtime 技术栈的战争,正在变成标准制定权的战争。Anthropic 的 YAML 格式很优雅,但 Kubernetes CRD 是事实标准——当 80% 的企业用 K8s 管理 infra,谁控制 CRD,谁就控制 runtime 的未来。
4.3 “零利润”时间表:十八个月压缩周期的证据链
历史不会简单重复,但会押韵。我们梳理了过去五年 AI 基础设施层的压缩周期:
| 层级 | 首个可信产品 | 压缩启动点 | 成为“基座”时间 | 关键证据 |
|---|---|---|---|---|
| 代码补全 | GitHub Copilot (2021.10) | 2022.Q2 | 2023.Q1 | Stack Overflow 付费问答收入下降 63%(2023.03财报) |
| 对话代理 | ChatGPT (2022.11) | 2023.Q1 | 2023.Q4 | Chegg 股价单季下跌 72%,教育 SaaS 融资额降 89%(PitchBook 2023.Q4) |
| RAG 管道 | LlamaIndex v0.9 (2023.03) | 2023.Q4 | 2024.Q3 | 法律科技公司 Headcount 减少 41%(2024.09 Gartner 报告) |
| Tool Use | LangChain Tool API (2024.02) | 2024.Q3 | 2025.Q2 | Zapier 企业版营收增速从 34% 降至 9%(2025.05 财报) |
| Agent Runtime | AWS AgentCore GA (2025.11) | 2026.Q2 | 2027.Q4 | 当前信号:AWS/Anthropic/GCP 同期发布 runtime,Daytona 融资 $24M,K8s SIG 成立专项组 |
这个时间表不是预测,而是基于资本流动和人才流向的观测。2026 年 Q1,我们追踪的 12 家 AI infra 初创公司中,7 家已停止招聘 runtime 工程师,转而聚焦 trace store 和 policy engine;顶级高校系统实验室的论文主题中,“secure sandbox” 下降 52%,而 “agent observability” 上升 217%。当聪明人都在撤离,说明游戏规则已变。
5. 生存指南:当 runtime 归零,什么才是真正的护城河
5.1 Trace Store:为什么 Braintrust 的 $36M 融资买的是“法律证据链”
当 runtime 成为免费基座,谁拥有最完整的 agent 行为日志,谁就拥有了事实上的“司法权”。Braintrust 的 Brainstore 数据库不是另一个监控面板,而是专为 AI 交互设计的 OLAP 引擎。其核心创新在于:
- Schema-on-read:不强制 agent 预定义日志字段,而是动态解析 event log 中的
tool_name、input、output,自动构建列式存储。 - 跨 runtime 关联:同一
trace_id可关联 Anthropic、AWS、Vertex 的日志(通过统一 trace propagation 协议)。 - 法律就绪导出:一键生成符合 GDPR/CCPA 的 audit report,包含:
who triggered,what was done,when,with what input,what output,who approved。
我们为某金融机构部署时,最关键的不是性能,而是其“不可篡改性”:Brainstore 使用 Merkle tree 对每个 event log 做哈希,根哈希每日上链(Polygon)。当监管问询“某笔交易是否由 agent 自动执行”,我们可出示:
- 区块链上根哈希证明日志未被篡改
- Brainstore 查询结果展示完整事件链
- 对应 AWS CloudTrail 日志交叉验证
这不再是“技术日志”,而是具备法律效力的证据链。而 runtime 层无法提供这个——它只负责生成日志,不负责证明日志真实。
5.2 Governance & Policy:OWASP Agentic Top 10 如何重塑采购流程
OWASP Agentic Top 10 的发布,标志着 agent 安全从“工程师的个人修养”升级为“企业的采购红线”。其第 3 条“A3: Insecure Tool Integration”直指要害:
“Agent 通过环境变量注入凭证,导致敏感数据泄露;或未校验 tool output 结构,被恶意 tool 返回伪造数据。”
这直接催生了新的采购需求:
- 采购部门要求:供应商必须提供 OWASP Top 10 合规报告,且由第三方审计(如 Vanta)
- 法务部门要求:policy engine 必须支持“最小权限原则”,例如:
fetch_notion_page工具只能读取指定 database,不能创建/删除 - 安全部门要求:所有 tool call 必须经过 DLP(数据防泄漏)扫描,阻断含 PII/PHI 的请求
我们帮某保险公司构建 policy engine 时,发现其最大痛点不是技术,而是策略的可解释性。安全团队需要向董事会证明:“为什么这个 agent 不能调用财务系统 API?”——答案不能是“代码里写了 rule”,而必须是:“根据《金融数据安全规范》第 7.2 条,非授权 agent 不得访问核心账务库,本 policy 已映射该条款编号”。这推动 policy engine 从规则引擎,进化为法规-技术映射平台。
5.3 Vertical Marketplaces:为什么 Salesforce Agentforce 的 $800M ARR 是终极答案
Salesforce Agentforce 的 $800M ARR(2026.Q4)不是偶然。它证明了一件事:企业愿意为“解决具体业务问题的 agent”付费,而非为“能跑 agent 的 runtime”付费。Agentforce 的成功在于其垂直封装:
- 销售场景:
lead-scoring-agent不是通用 agent,而是预集成 Salesforce CRM、ZoomInfo、Clearbit,内置 12 个行业专属评分模型(如 SaaS 公司看 MRR 增长率,制造业看设备在线率)。 - 采购流程:
vendor-risk-assessment-agent自动抓取供应商的 SEC filings、新闻舆情、GitHub 活跃度,生成风险评分报告,直接嵌入采购审批流。
关键洞察:垂直 agent 的价值不在技术先进性,而在“开箱即用的业务语义”。一个医疗 agent 不需要懂 transformer 架构,但必须懂 HL7 FHIR 标准、CMS 编码规则、HIPAA 审计要求。当 runtime 层归零,竞争焦点必然上移至:谁能最深地理解某个行业的 workflow、regulation、KPI?
我们观察到资本正疯狂涌入:
ai-hedge-fund(金融):已获 Sequoia 领投 $42M,其 agent 可直接连接 Bloomberg Terminal、SEC EDGAR、内部风控系统pentagi(网络安全):被 Palo Alto 以 $180M 收购,其 agent 能自动执行 MITRE ATT&CK 框架中的 217 个战术health-claims-agent(医疗):在 3 家美国医保公司试点,将理赔审核时间从 14 天缩短至 37 分钟
这些不是“AI 公司”,而是垂直领域的业务软件公司。它们用 agent 重构了传统 SaaS 的交付模式:不再卖 license,而是按“处理的理赔单数量”或“发现的安全漏洞数”收费。
6. 给从业者的行动清单:接下来 90 天该做什么
别再纠结“该选 Anthropic 还是 AWS”,真正的战场在 runtime 之上。以下是基于我们服务 37 家客户的实战经验,整理的 90 天行动清单:
6.1 第 1-30 天:完成 runtime 迁移与 trace 基建
- 立即行动:用 Anthropic Managed Agents 重写一个非核心 agent(如内部文档摘要),全程开启
--trace-enabled true,将 event log 导入 Brainstore 试用版。目标:验证 trace portability(能否在不改 agent 代码前提下,切换 runtime 并保持日志格式一致)。 - 关键检查点:当 agent 调用
post_to_wiki失败时,Brainstore 能否精准定位到input.content字段的长度超限?如果不能,说明你的 trace schema 设计有缺陷。 - 避坑提示:不要试图在 event log 中存二进制数据(如图片 base64)。Brainstore 对文本字段优化,对 blob 字段查询极慢。正确做法是存 S3 URL,让 trace store 只管元数据。
6.2 第 31-60 天:构建垂直领域 policy engine
- 立即行动:选取一个高风险业务场景(如金融公司的客户 KYC 更新),基于 OWASP Agentic Top 10 编写 5 条策略规则。例如:
Rule KYC-03: If tool_name == "update_customer_profile" AND input.id_type == "passport", then require input.passport_photo != null AND input.passport_photo.size < 5MB - 关键检查点:策略必须能被业务方理解。让合规官阅读这条规则,他应该能说出“这对应《反洗钱法》第 22 条”。如果他说“看不懂”,说明策略描述太技术化。
- 避坑提示:避免“一刀切”策略。我们曾为某电商设置“禁止调用支付 API”,结果导致促销 agent 失效。正确做法是“禁止在非工作时间调用支付 API”,用 context-aware 策略。
6.3 第 61-90 天:启动垂直 agent 产品化
- 立即行动:将你最成功的内部 agent(如合同审查 agent)剥离 runtime 依赖,用 LangChain 的
Runnable接口封装,发布为contract-review-agentPyPI 包。重点不是代码,而是文档:README.md中明确写出“适用场景:SaaS 公司的 SAAS 服务协议审核”examples/目录提供真实合同片段的测试用例compliance/目录附《GDPR 合规声明》《ISO 27001 适配说明》
- 关键检查点:当潜在客户问“你们怎么保证不泄露我的合同内容?”,你能指向
compliance/目录的具体章节,而非泛泛而谈“我们很安全”。 - 避坑提示:不要追求“通用 agent”。我们曾花 3 个月开发“万能法律 agent”,最终无人买单;转而专注“SaaS 合同审查”,3 周内签下 2 家客户。垂直越深,壁垒越高。
最后分享一个真实体会:去年我参加一个闭门技术峰会,一位 AWS 架构师说:“我们不担心 Anthropic 抢走 runtime 市场,我们担心的是——当客户发现 runtime 免费后,会突然意识到:原来他们真正要买的,从来不是‘能跑 agent 的机器’,而是‘能解决销售难题的 agent’。”这句话让我彻夜难眠。现在,我把这句话刻在了我们团队的 OKR 里:不成为最好的 runtime 提供商,而成为最懂销售的 agent 制造商。当一层技术归零,价值必然涌向更高处——那里没有护城河,只有更深的业务洞见。
