当前位置: 首页 > news >正文

Cloudflare 推出统一 AI 推理层:一套 API,接入所有模型

原文:Cloudflare’s AI Platform: an inference layer designed for agents
发布时间:2026 年 4 月 16 日


从一个真实的困境说起

如果你正在构建一个 AI 应用,大概率已经遇到过这样的局面:

三个月前选定的"最佳模型",今天可能已经不是最优选择。新的模型不断涌现,来自不同的供应商,各有擅长。你的客服 Agent 需要一个快而廉价的模型做意图分类,一个推理能力强的大模型做决策规划,还需要一个轻量模型执行具体任务。

于是你开始同时对接 OpenAI、Anthropic、Google……每家都有自己的 SDK、自己的账单系统、自己的限流规则。费用分散在多个平台,出了故障也不知道该找谁。

更关键的是,当你构建的不是简单聊天机器人,而是真正的Agent(智能体)时,这些问题会被成倍放大。一次用户请求,Agent 可能要串联 10 次推理调用,任何一个环节的延迟或失败,都会形成连锁反应。

Cloudflare 的这次发布,正是针对这个问题给出的答案。


核心发布:一个统一的推理层

Cloudflare 将自己的 AI 平台定位为一个统一推理层(Unified Inference Layer),目标是让开发者通过一套 API,访问任意供应商的任意模型。

70+ 模型,12+ 供应商,一行代码切换

过去,Workers AI 只能调用 Cloudflare 自托管的开源模型。现在,开发者可以用同一个AI.run()方法调用来自 OpenAI、Anthropic、Google 等主流供应商的模型,切换模型只需修改一行代码:

// 调用 Anthropic 的模型constresponse=awaitenv.AI.run('anthropic/claude-opus-4-6',{input:'What is Cloudflare?',},{gateway:{id:"default"},});

此次接入的新供应商包括:阿里云、AssemblyAI、字节跳动、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu 等,模型类型从文本扩展到了图像、视频、语音,支持多模态应用场景。

对于不使用 Workers 的开发者,REST API 支持也将在未来几周内上线。

费用统一管理,告别多平台账单

目前,企业平均同时使用 3.5 个 AI 模型,分布在不同供应商,没有任何一个平台能给出完整的费用视图。

通过 AI Gateway,所有模型的调用都汇聚在同一个入口,费用可以按照自定义维度拆分查看,比如免费用户 vs 付费用户的消耗对比,或者特定业务流程的成本占比:

constresponse=awaitenv.AI.run('@cf/moonshotai/kimi-k2.5',{prompt:'What is AI Gateway?'},{metadata:{"teamId":"AI","userId":12345}});

自带模型(BYOM):把你的私有模型也放上来

通用模型并不总是最优解。对于需要在私有数据上微调过的模型,或者针对特定场景优化的模型,Cloudflare 正在开放自带模型(Bring Your Own Model)能力。

这项功能基于 Replicate 的 Cog 技术,将 ML 模型容器化。开发者只需编写一个配置文件和推理脚本,Cog 会处理 CUDA 依赖、Python 版本、模型权重加载等繁琐的环境问题:

cog.yaml(依赖配置)

build:python_version:"3.13"python_requirements:requirements.txtpredict:"predict.py:Predictor"

predict.py(推理逻辑)

fromcogimportBasePredictor,Path,InputimporttorchclassPredictor(BasePredictor):defsetup(self):self.net=torch.load("weights.pth")defpredict(self,image:Path=Input(description="Image to enlarge"),scale:float=Input(description="Factor to scale image by",default=1.5))->Path:output=self.net(input)returnoutput

构建完成后,推送容器到 Workers AI,后续通过标准 API 调用即可。目前该功能已在内部和部分外部客户中测试,Cloudflare 也在招募设计合作伙伴,有意向的团队可以直接联系。


极速首 Token:全球网络的推理优势

对于 Agent 场景,首 Token 时间(Time to First Token)比总体推理时长更影响用户体验。即便整个推理过程需要 3 秒,如果首 Token 能提前 50ms 到达,用户感知到的响应就会明显更流畅。

Cloudflare 在全球 330 座城市部署了数据中心,AI Gateway 可以就近处理请求,缩短网络传输时间。对于 Workers AI 托管的模型,代码与推理跑在同一个全球网络上,完全不需要经过公共互联网,延迟可以做到最低。

目前 Workers AI 的公开模型目录中,已经包含了专为 Agent 场景优化的大模型,包括Kimi K2.5和实时语音模型。


可靠性:自动故障转移与断线续传

Agent 工作流的每一步都依赖上一步的结果,推理调用的可靠性直接决定整条链路的稳定性。Cloudflare 在两个层面解决了这个问题:

自动故障转移:如果某个模型同时在多个供应商上提供服务,当某个供应商出现故障时,AI Gateway 会自动将请求路由到其他可用供应商,无需开发者编写任何故障处理逻辑。

流式响应断线续传:AI Gateway 会在推理过程中缓存流式响应。如果 Agent 在中途断开连接,重新连接后可以直接取回已生成的内容,不需要重新发起推理请求,也不会重复计费。结合 Agents SDK 的检查点机制,最终用户完全感知不到中断的存在。


Replicate 并入:生态整合提速

Replicate 团队已正式加入 Cloudflare AI 平台团队,两个团队现在已经完全合并。

接下来,Replicate 上的所有模型将陆续接入 AI Gateway,Replicate 原有的托管模型也将迁移到 Cloudflare 基础设施上运行。对于已经在 Replicate 上部署了模型的用户,后续可以通过 AI Gateway 访问,也可以将其迁移到 Workers AI 托管。


小结

这次发布的核心逻辑并不复杂:AI 开发的碎片化问题正在变得越来越严重,而 Cloudflare 试图用一个统一的推理层来收拢这些散乱的线头——统一 API、统一账单、统一可靠性保障,同时利用自身全球网络的优势压低延迟。

对于正在构建 Agent 应用的开发者来说,这是一个值得关注的方向:不是为了把所有鸡蛋放进 Cloudflare 这个篮子,而是通过一个中间层,让你在不同供应商之间保持灵活性,同时不用自己处理那些繁琐的基础设施问题。

相关文档

  • AI Gateway 文档:https://developers.cloudflare.com/ai-gateway
  • Workers AI 文档:https://developers.cloudflare.com/workers-ai
  • Agents SDK 文档:https://developers.cloudflare.com/agents
  • 模型目录:https://developers.cloudflare.com/ai/models
http://www.jsqmd.com/news/801882/

相关文章:

  • 人文地理学考研辅导班推荐:专门针对性培训机构评测 - michalwang
  • 揭秘NSA开源神器:10分钟让Ghidra逆向工程工具成为你的代码侦探
  • 告别臃肿:使用ODT配置文件实现Office组件的精准部署与离线备份
  • 2026年西安画册印刷厂与活页环装定制深度横评指南 - 精选优质企业推荐官
  • 别再被Excel文件‘炸’了!手把手教你用ZipSecureFile.setMinInflateRatio()解决Apache POI的Zip bomb报错
  • Java 反编译工具包(.class -> .java) 及其在 Minecraft 模组深度定制中的应用
  • xhs签名验证机制详解:如何绕过小红书反爬虫系统的终极指南
  • 别再死记硬背公式了!用Python+OpenCV手把手带你画人脸姿态箭头(从欧拉角到2D投影)
  • 基于Markdown与AI的智能思维导图系统设计与实现
  • Poppins字体终极指南:免费开源的多语言几何无衬线字体
  • 如何通过线上回收百联OK卡?回收高手的实操经验! - 团团收购物卡回收
  • ADXL345计步器算法解析:从数据采集到精准步数识别
  • 【信息科学与工程学】【安全领域】第六十九篇 抗DDoS设备的主要算法02
  • 暗黑破坏神2存档编辑器:d2s-editor 终极免费工具完整指南
  • 2026年大连搬家公司深度横评:从居民搬迁到企业迁移的一站式解决方案 - 精选优质企业推荐官
  • 新手首次使用Taotoken从注册到完成API调用的全流程
  • SRTM、ASTER、ALOS选哪个?GIS项目实战中不同精度DEM数据的避坑指南
  • 系统科学考研辅导班推荐:专门针对性培训机构评测 - michalwang
  • LeagueAkari:解放双手的英雄联盟智能助手,颠覆你的游戏体验
  • 免费开源AI软件.桌面单机版,可移动的AI知识库,察元 AI桌面版:装到U盘上能跑吗 察元AI便携式部署的可行边界
  • 从Softmax到ArcFace:PyTorch实战解析人脸识别中的角度间隔损失函数
  • TensorFlow.js模型部署超简单
  • 避坑指南:用STC15F104W驱动315/433MHz模块,NEC协议解码总失败?可能是这几个时序问题
  • 如何用KMS_VL_ALL_AIO一键激活Windows和Office:终极免费智能激活指南
  • Discord Music Presence终极指南:如何让任何媒体播放器在Discord显示状态
  • 性价比高的门票印刷厂家
  • 2026年湘潭高端定制门窗与别墅阳光房完全指南:断桥铝系统窗、隔音防水解决方案对标 - 优质企业观察收录
  • 解决ClaudeCode频繁封号与Token不足的Taotoken替代方案
  • 2026洗发水推荐:修复敏感头皮洗发水盘点 - 速递信息
  • 手把手教你用PMOS给QX7135这类‘无使能’LED驱动芯片加个开关(附软启动时间计算)