当前位置: 首页 > news >正文

Cloudflare新规:屏蔽AI爬虫、按价值收费,内容权益分配变局将至?

Cloudflare官宣屏蔽AI爬虫新规

7月1日,Cloudflare发了一篇标题为「你的网站,你的规则」的博客。不过内容可不温和,从9月15日起,所有使用Cloudflare的网站,默认屏蔽混合用途的AI爬虫。只要页面上有广告,AI的训练爬虫和Agent爬虫就无法进入,除非手动去后台打开。这里逻辑翻转了,以前是「默认允许,你可以选择屏蔽」,现在是「默认屏蔽,你可以选择允许」。这可是互联网基础设施层首次对AI数据获取方式进行系统性「立法」。做出此决定的背景是一个标志性事件,互联网上的bot流量已超过人类流量。Cloudflare CEO Matthew Prince称,这个里程碑比预期来得早,原本预计要到2027年才会发生。也就是说,如今打开的大多数网页,主要「看」它们的是机器。而规范来自AI的流量,既可能决定所有网站的未来,也关乎网络守门人Cloudflare自身的发展轨迹。

最严厉的「爬虫政策」

据官方介绍,Cloudflare把AI爬虫拆成了三类。第一类是「Search」,即给搜索服务建索引的传统爬虫,像Google做了二十多年的那种。第二类是「Agent」,是实时代用户访问网页的AI代理,比如让ChatGPT查信息、填表单,背后就有Agent爬虫帮忙。第三类是「Training」,是大规模抓取内容用于模型训练的爬虫。这三类分开标注,网站主能分别对每类设置「允许」或「屏蔽」。想让搜索引擎找到网站?可以。想让AI代理帮用户查信息?也行。但不想让AI公司白用内容训练模型?那就单独关掉Training。这个分类可直戳Google的痛点。Google的Googlebot是典型的「混合爬虫」,它既为Google搜索建索引,也为Google的AI功能(如AI Overviews)采集数据。Google虽提供了叫Google - Extended的工具,允许网站选退AI训练,但核心爬虫Googlebot仍会为搜索引擎内置的AI功能收集数据。搜索和AI的数据需求,在Google的架构里并未真正分开。这意味着什么呢?Cloudflare的数据显示,因为网站想在Google搜索中可见,就得让Googlebot进来,而它进来后,AI训练的数据也就被拿走了。Google因此获得了约两倍于其他AI公司的网页内容访问量。另外,Cloudflare还加了「最严规则优先」原则。如果一个爬虫同时执行搜索和训练功能,所有适用规则会同时生效,按最严格的来。也就是说,只要选择屏蔽Training爬虫,Googlebot、Applebot、BingBot等混合爬虫都会被屏蔽。这是在砍「捆绑」,即想被搜索到,就得接受被AI训练。Cloudflare认为这种捆绑不公平,必须拆开。一组数据能说明旧「社会契约」崩坏程度。Cloudflare公布的各家AI公司爬取与回流比显示,Google约是14:1,即每爬取14个页面,回流1次点击;OpenAI是1,700:1;Anthropic是73,000:1。搜索引擎时代是「我爬你的内容,你得到流量」,在AI时代,这笔账算不过来了。

从「保安」到「收银员」

要是Cloudflare只是帮网站主挡住AI爬虫,那意义就局限于「防御」,但它显然不满足于此。去年7月,Cloudflare推出「Pay Per Crawl」,按爬取次数向AI公司收费。今年,又将模式升级为「Pay Per Use」。区别在于,不再是爬虫来一次收一次钱,而是内容在AI系统中真正产生价值,用于生成回答、出现在AI搜索结果里,用户才能收钱。从「按次收费」到「按价值收费」,这转变野心不小,意味着Cloudflare想建立的不是墙,而是市场。目前初始合作伙伴是两家AI搜索公司Ceramic.ai和You.com。出版商加入后,内容出现在Ceramic的AI搜索结果中,或被You.com的Agent访问时,会收到付款。大出版商纷纷支持,Condé Nast的CEO称这是「游戏规则的改变」,Reddit的联合创始人说「整个生态系统都会受益」。不过,有个不太完美的细节。今年3月,Cloudflare自己发布了一个爬虫API,输入URL能一次性抓取整个网站,返回HTML、Markdown或结构化JSON。这让一些出版商不安,那个一直帮忙挡爬虫的公司,自己却造了一个爬虫。更尴尬的是,有出版商尝试屏蔽Cloudflare自己的爬虫时,设置不生效。虽然后来Cloudflare修复了问题,但网上评论传开了:「我们保护网站不被爬虫抓取……除非是我们自己的爬虫。」Cloudflare解释称,其爬虫是「合规爬虫」,会尊重robots.txt,遵守自己的AI Crawl Control规则。若站长选择屏蔽AI爬虫,Cloudflare自己的爬虫也会被挡在门外。用一位开发者的话说,这是「两边下注所以永远赢」的策略。这就引出一个根本问题:Cloudflare到底是中立的基础设施裁判,还是新型中间商?答案可能是后者。它同时扮演着规则制定者(定义三类爬虫)、规则执行者(在基础设施层拦截爬虫)和市场参与者(运营自己的爬虫和内容交易平台)三个角色。这不是说它做的事没价值,把AI爬虫从「无序掠夺」拉入「明确分类、需要许可」的框架,是个进步。但把它当成内容创作者的「救世主」,就太天真了。它构建的是以自己为枢纽的「AI内容税收站」。

普通人能分到蛋糕吗?

这或许是整件事中最让人冷静的部分。站出来支持Cloudflare的,如Condé Nast、Dotdash Meredith、Reddit等,都是大型出版商和平台。它们有内容规模、法务团队和谈判筹码,即便没有Cloudflare,也能和AI公司签许可协议,事实上,过去一年全球已签超50份内容许可大单。对它们来说,Cloudflare只是多了个工具,并非唯一出路。但个人博主、在WordPress上写技术教程的独立开发者、用公众号写深度分析的自媒体人呢?理论上,Cloudflare的基础设施能让小内容主不用逐一跟每家AI公司谈判,就能设定权限和获得补偿。但关键是「理论上」三个字。「Pay Per Use」到现在只有Ceramic.ai和You.com两个合作伙伴,都是小玩家。OpenAI、Google、Anthropic这些大规模消耗内容的公司都没参与。而且还有现实矛盾,对小创作者来说,曝光是最稀缺的资源,屏蔽AI爬虫可能减少被发现的机会。大媒体屏蔽爬虫,Google搜索还是会收录;小博客屏蔽爬虫,可能就消失在互联网噪音里了。有组数据更让人清醒,AI聊天机器人带来的引荐流量比传统搜索少约96%,用户在AI回答中点击引用来源的概率只有约1%,出版商过去一年因AI搜索功能损失了20% - 90%不等的流量和收入。一项研究发现,Google的AI Overviews让外链点击量下降了约40%。这意味着,即便「Pay Per Use」全面铺开,付费规模可能也远不足以弥补出版商已损失的广告收入。这不是变局,更像是止损,而且未必能止住。Cloudflare报告称,超50%的AI爬虫流量花在重复抓取未更新的页面上。解决这种低效有价值,但解决效率问题和让创作者真正赚钱是两码事。

「菩萨」也有自己的庙

Cloudflare向来被用户赞为「赛博菩萨」,因为它确实做了有价值的事,把AI时代的数据掠夺从暗处拉到明处,逼AI公司说清「要数据干什么」。在bot流量超人类流量的互联网上,有人站出来喊「规矩不能这么没有」,值得肯定。但「菩萨」也有自己的考量。Cloudflare管理着全球约20%的网络流量,这数字说大不大。另外80%的网站不在其保护范围内,AI公司完全可以把数据采集重心转向非Cloudflare站点。Google和Apple的爬虫已提供形式上的选退工具,可能借此绕过Cloudflare的拦截。英国竞争与市场管理局(CMA)正从监管角度向Google施压,要求其让出版商在不影响搜索排名的前提下退出AI训练。一个基础设施公司的政策,不会让内容权益的重新分配尘埃落定。但它揭示了深层趋势,互联网的「收费站」正从搜索引擎转移到基础设施层。过去二十年,Google决定谁能被看见,现在Cloudflare想在更底层拦一道,要求过路者说清目的,按规矩来。收费站变了,但收费的人,未必变了。

http://www.jsqmd.com/news/1131022/

相关文章:

  • QLVideo:Mac视频预览终极方案,轻松搞定格式兼容烦恼
  • PVE 8.x 家用 All-in-One 主机硬件选型:3类配置方案与性能实测对比
  • 基于TOOD模型的龙虾性别分类与目标检测技术解析
  • MySQL 8.0 多表查询实战:学生-课程-成绩-教师4表12个经典业务场景解析
  • 从PWM信号到精准角度:舵机闭环控制原理深度解析
  • 3大场景实战:如何在资源受限环境中部署whisper.cpp语音识别模型
  • 现代应用测试策略:从单元到UI的Foodium实战指南
  • AI模型版本控制Dashboard:架构设计与工程实践
  • AI项目筛选与技能安全实践:从GitHub热门到高效工作流
  • 高光谱视觉基础模型HyperFree的技术解析与应用实践
  • VideoRAG技术解析:多模态视频理解与检索增强生成
  • 简单三步:让你的Realtek RTL8125网卡在Linux上发挥2.5GbE完整性能
  • 高精度电压管理:KMR221与PIC18F85J50的工业级应用
  • 异步电机无传感器FOC控制原理与工程实践
  • Transformer架构深度解析:从自注意力机制到大模型工程实践
  • 智慧仓储系统:三维空间计算与无感定位技术解析
  • FinalBurn Neo技术架构深度解析:开源模拟器技术如何实现经典游戏重生
  • 永磁同步电机无传感器控制:滑模观测器原理与工程实践
  • YOLO环境搭建与实时目标检测实战指南
  • Steam创意工坊下载终极指南:轻松获取1000+游戏模组,告别平台限制
  • Frida Android Helper实战:图形化动态分析Android应用
  • 四大主流大模型对比:Claude Sonnet 4.6、Gemini 3.1 Pro、GLM 5与豆包实测分析
  • 6DoF运动跟踪技术:从IMU传感器到姿态解算全解析
  • 细粒度视觉识别技术:挑战、突破与应用实践
  • 若依框架Swagger调试实战:解决认证失败与404问题
  • Android SO库逆向实战:从JNI入口到ARM指令的完整追踪方法
  • DeepSeek大模型企业级部署实战:十万预算下的能力评测与成本核算
  • AD74413R与TM4C1294KCPDT的ADC/DAC协同设计与实现
  • 嵌入式Linux驱动开发避坑指南:5个常见编译与设备树配置错误解析
  • 国产AI编程服务:OpenAI协议兼容的合规接入方案