当前位置：首页 > news >正文

Cloudflare 推出统一 AI 推理层：一套 API，接入所有模型

news 2026/5/12 11:25:33

原文：Cloudflare’s AI Platform: an inference layer designed for agents
发布时间：2026 年 4 月 16 日

从一个真实的困境说起

如果你正在构建一个 AI 应用，大概率已经遇到过这样的局面：

三个月前选定的"最佳模型"，今天可能已经不是最优选择。新的模型不断涌现，来自不同的供应商，各有擅长。你的客服 Agent 需要一个快而廉价的模型做意图分类，一个推理能力强的大模型做决策规划，还需要一个轻量模型执行具体任务。

于是你开始同时对接 OpenAI、Anthropic、Google……每家都有自己的 SDK、自己的账单系统、自己的限流规则。费用分散在多个平台，出了故障也不知道该找谁。

更关键的是，当你构建的不是简单聊天机器人，而是真正的Agent（智能体）时，这些问题会被成倍放大。一次用户请求，Agent 可能要串联 10 次推理调用，任何一个环节的延迟或失败，都会形成连锁反应。

Cloudflare 的这次发布，正是针对这个问题给出的答案。

核心发布：一个统一的推理层

Cloudflare 将自己的 AI 平台定位为一个统一推理层（Unified Inference Layer），目标是让开发者通过一套 API，访问任意供应商的任意模型。

70+ 模型，12+ 供应商，一行代码切换

过去，Workers AI 只能调用 Cloudflare 自托管的开源模型。现在，开发者可以用同一个AI.run()方法调用来自 OpenAI、Anthropic、Google 等主流供应商的模型，切换模型只需修改一行代码：

// 调用 Anthropic 的模型constresponse=awaitenv.AI.run('anthropic/claude-opus-4-6',{input:'What is Cloudflare?',},{gateway:{id:"default"},});

此次接入的新供应商包括：阿里云、AssemblyAI、字节跳动、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu 等，模型类型从文本扩展到了图像、视频、语音，支持多模态应用场景。

对于不使用 Workers 的开发者，REST API 支持也将在未来几周内上线。

费用统一管理，告别多平台账单

目前，企业平均同时使用 3.5 个 AI 模型，分布在不同供应商，没有任何一个平台能给出完整的费用视图。

通过 AI Gateway，所有模型的调用都汇聚在同一个入口，费用可以按照自定义维度拆分查看，比如免费用户 vs 付费用户的消耗对比，或者特定业务流程的成本占比：

constresponse=awaitenv.AI.run('@cf/moonshotai/kimi-k2.5',{prompt:'What is AI Gateway?'},{metadata:{"teamId":"AI","userId":12345}});

自带模型（BYOM）：把你的私有模型也放上来

通用模型并不总是最优解。对于需要在私有数据上微调过的模型，或者针对特定场景优化的模型，Cloudflare 正在开放自带模型（Bring Your Own Model）能力。

这项功能基于 Replicate 的 Cog 技术，将 ML 模型容器化。开发者只需编写一个配置文件和推理脚本，Cog 会处理 CUDA 依赖、Python 版本、模型权重加载等繁琐的环境问题：

cog.yaml（依赖配置）

build:python_version:"3.13"python_requirements:requirements.txtpredict:"predict.py:Predictor"

predict.py（推理逻辑）

fromcogimportBasePredictor,Path,InputimporttorchclassPredictor(BasePredictor):defsetup(self):self.net=torch.load("weights.pth")defpredict(self,image:Path=Input(description="Image to enlarge"),scale:float=Input(description="Factor to scale image by",default=1.5))->Path:output=self.net(input)returnoutput