当前位置：首页 > news >正文

扔掉 API！Anthropic 带头“开倒车”：为什么 Bash 是 AI Agent 的过渡形态？

news 2026/3/26 20:30:33

看到最近一篇文章里写道：假设一个开发者需要将一个视频文件转换成 GIF。Anthropic觉得不应该去找一个专门的 videoToGif API。

他会在命令行里输入 ffmpeg -i input.mp4 output.gif。如果他需要在一个代码库里查找所有包含特定函数调用的文件，他会用 grep -r "functionName" .，而不是一个 codeSearch API。

Bash 和它背后的庞大命令行工具生态，是几十年来软件工程的最佳实践沉淀。

它具备两个 API 模式难以比拟的优势：

1. 通用性与组合性。

Unix 哲学的核心是「做一件事并把它做好」。无数个小而美的命令行工具（grep, sed, awk, jq, curl）可以通过管道符（|）任意组合，形成强大的数据处理流。这种能力使得 Agent 可以动态地构建解决方案，而不是被困在预设的工具集中。

比如，一个邮件 Agent 需要计算用户本周在打车软件上的总花费。

API 模式：Agent 调用 search_email(query="Uber OR Lyft")，得到一百多封邮件。接下来怎么办？模型需要将所有邮件内容加载到上下文中，然后用孱弱的内置计算能力去解析和累加。这不仅消耗了宝贵的上下文窗口，而且极易出错。Bash 模式：Agent 可以生成一个脚本。首先，用一个 gmail_search 脚本将结果保存到文件 emails.txt。接着，用 grep "Price: " emails.txt 筛选出包含价格的行。然后，用 awk 或 sed 提取出数字。最后，用 paste 和 bc 将所有数字相加。

我就不Copy完了...

就在很多开发者还在拼命给 AI 封装各种 API（接口），生怕 AI 看不到、用不对工具。但 Anthropic 却提出了一个极其“硬核”且反直觉的观点：

不要给 Agent 喂 API，给它一个 Bash 终端（命令行）就够了。

我最初读到这段话时也陷入了沉思。这意味着我们要放弃精心构建的“安全花园”，把 AI 丢进复杂、甚至有些杂乱的真实计算环境中。

我想深度拆解一下这场关于“API 模式 vs. Bash 模式”的技术博弈，以及它如何改变我们对“先进 Agent”的定义。

一、 Agent 写完脚本怎么知道它是对的？

这是很多人的第一反应：Agent 只是概率预测模型，它写出的 Bash 脚本万一写错了，或者把系统删了怎么办？

真相是：Agent 并不需要“预知”正确，它只需要学会“纠错”。

在传统的 API 模式下，Agent 是一个“只会填表的行政助理”，一旦 API 报错，它往往就傻眼了。但在 Bash 模式下，Agent 变成了一个“拿着工具箱的工程师”。

闭环反馈（The Loop）：真正的 Agent 不会一次性写下 50 行脚本。它会先运行ls看看文件在不在，再运行head看看格式。
确定性执行：相比于 AI 孱弱的口算能力，awk、sed、bc这些工具提供的是“物理级”的确定性。
错误感知：当脚本报错时，Agent 看到的是标准错误（Stderr）。这种“撞到墙”的真实感，是它从“幻觉”回到“现实”的关键。

结论：先进的 Agent 不是不犯错，而是它拥有一个 REPL（读-评-展）的闭环环境，能像人类一样在调试中收敛到正确答案。

二、它连 ffmpeg 是什么都不知道，怎么调用？

文章里举了一个例子：要把视频转 GIF。如果 Agent 不知道ffmpeg这个工具的存在，它怎么去查--help呢？

这里涉及到一个被很多人忽视的事实：LLM 不是在真空中长大的。

海量的常识：现在的顶级模型（如 Claude 3.5）读过整个 GitHub 和 Stack Overflow。在它们的语义空间里，“处理视频”和ffmpeg之间早就有了一根坚不可摧的连线。
环境的“可发现性”：真正的 Linux 环境自带“说明书”。如果 Agent 模糊记得有个工具，它可以运行apropos video。系统会告诉它有哪些相关命令。

这正是“授人以鱼”与“授人以渔”的区别。API 模式是开发者预测需求，提前喂饭；而 Bash 模式是给 AI 一根鱼竿，让它在开源软件的汪洋大海里自主狩猎。