Cloudflare 推出统一 AI 推理层:一套 API,接入所有模型
原文:Cloudflare’s AI Platform: an inference layer designed for agents
发布时间:2026 年 4 月 16 日
从一个真实的困境说起
如果你正在构建一个 AI 应用,大概率已经遇到过这样的局面:
三个月前选定的"最佳模型",今天可能已经不是最优选择。新的模型不断涌现,来自不同的供应商,各有擅长。你的客服 Agent 需要一个快而廉价的模型做意图分类,一个推理能力强的大模型做决策规划,还需要一个轻量模型执行具体任务。
于是你开始同时对接 OpenAI、Anthropic、Google……每家都有自己的 SDK、自己的账单系统、自己的限流规则。费用分散在多个平台,出了故障也不知道该找谁。
更关键的是,当你构建的不是简单聊天机器人,而是真正的Agent(智能体)时,这些问题会被成倍放大。一次用户请求,Agent 可能要串联 10 次推理调用,任何一个环节的延迟或失败,都会形成连锁反应。
Cloudflare 的这次发布,正是针对这个问题给出的答案。
核心发布:一个统一的推理层
Cloudflare 将自己的 AI 平台定位为一个统一推理层(Unified Inference Layer),目标是让开发者通过一套 API,访问任意供应商的任意模型。
70+ 模型,12+ 供应商,一行代码切换
过去,Workers AI 只能调用 Cloudflare 自托管的开源模型。现在,开发者可以用同一个AI.run()方法调用来自 OpenAI、Anthropic、Google 等主流供应商的模型,切换模型只需修改一行代码:
// 调用 Anthropic 的模型constresponse=awaitenv.AI.run('anthropic/claude-opus-4-6',{input:'What is Cloudflare?',},{gateway:{id:"default"},});此次接入的新供应商包括:阿里云、AssemblyAI、字节跳动、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu 等,模型类型从文本扩展到了图像、视频、语音,支持多模态应用场景。
对于不使用 Workers 的开发者,REST API 支持也将在未来几周内上线。
费用统一管理,告别多平台账单
目前,企业平均同时使用 3.5 个 AI 模型,分布在不同供应商,没有任何一个平台能给出完整的费用视图。
通过 AI Gateway,所有模型的调用都汇聚在同一个入口,费用可以按照自定义维度拆分查看,比如免费用户 vs 付费用户的消耗对比,或者特定业务流程的成本占比:
constresponse=awaitenv.AI.run('@cf/moonshotai/kimi-k2.5',{prompt:'What is AI Gateway?'},{metadata:{"teamId":"AI","userId":12345}});自带模型(BYOM):把你的私有模型也放上来
通用模型并不总是最优解。对于需要在私有数据上微调过的模型,或者针对特定场景优化的模型,Cloudflare 正在开放自带模型(Bring Your Own Model)能力。
这项功能基于 Replicate 的 Cog 技术,将 ML 模型容器化。开发者只需编写一个配置文件和推理脚本,Cog 会处理 CUDA 依赖、Python 版本、模型权重加载等繁琐的环境问题:
cog.yaml(依赖配置)
build:python_version:"3.13"python_requirements:requirements.txtpredict:"predict.py:Predictor"predict.py(推理逻辑)
fromcogimportBasePredictor,Path,InputimporttorchclassPredictor(BasePredictor):defsetup(self):self.net=torch.load("weights.pth")defpredict(self,image:Path=Input(description="Image to enlarge"),scale:float=Input(description="Factor to scale image by",default=1.5))->Path:output=self.net(input)returnoutput构建完成后,推送容器到 Workers AI,后续通过标准 API 调用即可。目前该功能已在内部和部分外部客户中测试,Cloudflare 也在招募设计合作伙伴,有意向的团队可以直接联系。
极速首 Token:全球网络的推理优势
对于 Agent 场景,首 Token 时间(Time to First Token)比总体推理时长更影响用户体验。即便整个推理过程需要 3 秒,如果首 Token 能提前 50ms 到达,用户感知到的响应就会明显更流畅。
Cloudflare 在全球 330 座城市部署了数据中心,AI Gateway 可以就近处理请求,缩短网络传输时间。对于 Workers AI 托管的模型,代码与推理跑在同一个全球网络上,完全不需要经过公共互联网,延迟可以做到最低。
目前 Workers AI 的公开模型目录中,已经包含了专为 Agent 场景优化的大模型,包括Kimi K2.5和实时语音模型。
可靠性:自动故障转移与断线续传
Agent 工作流的每一步都依赖上一步的结果,推理调用的可靠性直接决定整条链路的稳定性。Cloudflare 在两个层面解决了这个问题:
自动故障转移:如果某个模型同时在多个供应商上提供服务,当某个供应商出现故障时,AI Gateway 会自动将请求路由到其他可用供应商,无需开发者编写任何故障处理逻辑。
流式响应断线续传:AI Gateway 会在推理过程中缓存流式响应。如果 Agent 在中途断开连接,重新连接后可以直接取回已生成的内容,不需要重新发起推理请求,也不会重复计费。结合 Agents SDK 的检查点机制,最终用户完全感知不到中断的存在。
Replicate 并入:生态整合提速
Replicate 团队已正式加入 Cloudflare AI 平台团队,两个团队现在已经完全合并。
接下来,Replicate 上的所有模型将陆续接入 AI Gateway,Replicate 原有的托管模型也将迁移到 Cloudflare 基础设施上运行。对于已经在 Replicate 上部署了模型的用户,后续可以通过 AI Gateway 访问,也可以将其迁移到 Workers AI 托管。
小结
这次发布的核心逻辑并不复杂:AI 开发的碎片化问题正在变得越来越严重,而 Cloudflare 试图用一个统一的推理层来收拢这些散乱的线头——统一 API、统一账单、统一可靠性保障,同时利用自身全球网络的优势压低延迟。
对于正在构建 Agent 应用的开发者来说,这是一个值得关注的方向:不是为了把所有鸡蛋放进 Cloudflare 这个篮子,而是通过一个中间层,让你在不同供应商之间保持灵活性,同时不用自己处理那些繁琐的基础设施问题。
相关文档
- AI Gateway 文档:https://developers.cloudflare.com/ai-gateway
- Workers AI 文档:https://developers.cloudflare.com/workers-ai
- Agents SDK 文档:https://developers.cloudflare.com/agents
- 模型目录:https://developers.cloudflare.com/ai/models
