当前位置：首页 > news >正文

Cloudflare新规：屏蔽AI爬虫、按价值收费，内容权益分配变局将至？

news 2026/7/5 22:51:10

Cloudflare官宣屏蔽AI爬虫新规

7月1日，Cloudflare发了一篇标题为「你的网站，你的规则」的博客。不过内容可不温和，从9月15日起，所有使用Cloudflare的网站，默认屏蔽混合用途的AI爬虫。只要页面上有广告，AI的训练爬虫和Agent爬虫就无法进入，除非手动去后台打开。这里逻辑翻转了，以前是「默认允许，你可以选择屏蔽」，现在是「默认屏蔽，你可以选择允许」。这可是互联网基础设施层首次对AI数据获取方式进行系统性「立法」。做出此决定的背景是一个标志性事件，互联网上的bot流量已超过人类流量。Cloudflare CEO Matthew Prince称，这个里程碑比预期来得早，原本预计要到2027年才会发生。也就是说，如今打开的大多数网页，主要「看」它们的是机器。而规范来自AI的流量，既可能决定所有网站的未来，也关乎网络守门人Cloudflare自身的发展轨迹。

最严厉的「爬虫政策」

据官方介绍，Cloudflare把AI爬虫拆成了三类。第一类是「Search」，即给搜索服务建索引的传统爬虫，像Google做了二十多年的那种。第二类是「Agent」，是实时代用户访问网页的AI代理，比如让ChatGPT查信息、填表单，背后就有Agent爬虫帮忙。第三类是「Training」，是大规模抓取内容用于模型训练的爬虫。这三类分开标注，网站主能分别对每类设置「允许」或「屏蔽」。想让搜索引擎找到网站？可以。想让AI代理帮用户查信息？也行。但不想让AI公司白用内容训练模型？那就单独关掉Training。这个分类可直戳Google的痛点。Google的Googlebot是典型的「混合爬虫」，它既为Google搜索建索引，也为Google的AI功能（如AI Overviews）采集数据。Google虽提供了叫Google - Extended的工具，允许网站选退AI训练，但核心爬虫Googlebot仍会为搜索引擎内置的AI功能收集数据。搜索和AI的数据需求，在Google的架构里并未真正分开。这意味着什么呢？Cloudflare的数据显示，因为网站想在Google搜索中可见，就得让Googlebot进来，而它进来后，AI训练的数据也就被拿走了。Google因此获得了约两倍于其他AI公司的网页内容访问量。另外，Cloudflare还加了「最严规则优先」原则。如果一个爬虫同时执行搜索和训练功能，所有适用规则会同时生效，按最严格的来。也就是说，只要选择屏蔽Training爬虫，Googlebot、Applebot、BingBot等混合爬虫都会被屏蔽。这是在砍「捆绑」，即想被搜索到，就得接受被AI训练。Cloudflare认为这种捆绑不公平，必须拆开。一组数据能说明旧「社会契约」崩坏程度。Cloudflare公布的各家AI公司爬取与回流比显示，Google约是14:1，即每爬取14个页面，回流1次点击；OpenAI是1,700:1；Anthropic是73,000:1。搜索引擎时代是「我爬你的内容，你得到流量」，在AI时代，这笔账算不过来了。

从「保安」到「收银员」

要是Cloudflare只是帮网站主挡住AI爬虫，那意义就局限于「防御」，但它显然不满足于此。去年7月，Cloudflare推出「Pay Per Crawl」，按爬取次数向AI公司收费。今年，又将模式升级为「Pay Per Use」。区别在于，不再是爬虫来一次收一次钱，而是内容在AI系统中真正产生价值，用于生成回答、出现在AI搜索结果里，用户才能收钱。从「按次收费」到「按价值收费」，这转变野心不小，意味着Cloudflare想建立的不是墙，而是市场。目前初始合作伙伴是两家AI搜索公司Ceramic.ai和You.com。出版商加入后，内容出现在Ceramic的AI搜索结果中，或被You.com的Agent访问时，会收到付款。大出版商纷纷支持，Condé Nast的CEO称这是「游戏规则的改变」，Reddit的联合创始人说「整个生态系统都会受益」。不过，有个不太完美的细节。今年3月，Cloudflare自己发布了一个爬虫API，输入URL能一次性抓取整个网站，返回HTML、Markdown或结构化JSON。这让一些出版商不安，那个一直帮忙挡爬虫的公司，自己却造了一个爬虫。更尴尬的是，有出版商尝试屏蔽Cloudflare自己的爬虫时，设置不生效。虽然后来Cloudflare修复了问题，但网上评论传开了：「我们保护网站不被爬虫抓取……除非是我们自己的爬虫。」Cloudflare解释称，其爬虫是「合规爬虫」，会尊重robots.txt，遵守自己的AI Crawl Control规则。若站长选择屏蔽AI爬虫，Cloudflare自己的爬虫也会被挡在门外。用一位开发者的话说，这是「两边下注所以永远赢」的策略。这就引出一个根本问题：Cloudflare到底是中立的基础设施裁判，还是新型中间商？答案可能是后者。它同时扮演着规则制定者（定义三类爬虫）、规则执行者（在基础设施层拦截爬虫）和市场参与者（运营自己的爬虫和内容交易平台）三个角色。这不是说它做的事没价值，把AI爬虫从「无序掠夺」拉入「明确分类、需要许可」的框架，是个进步。但把它当成内容创作者的「救世主」，就太天真了。它构建的是以自己为枢纽的「AI内容税收站」。

普通人能分到蛋糕吗？

这或许是整件事中最让人冷静的部分。站出来支持Cloudflare的，如Condé Nast、Dotdash Meredith、Reddit等，都是大型出版商和平台。它们有内容规模、法务团队和谈判筹码，即便没有Cloudflare，也能和AI公司签许可协议，事实上，过去一年全球已签超50份内容许可大单。对它们来说，Cloudflare只是多了个工具，并非唯一出路。但个人博主、在WordPress上写技术教程的独立开发者、用公众号写深度分析的自媒体人呢？理论上，Cloudflare的基础设施能让小内容主不用逐一跟每家AI公司谈判，就能设定权限和获得补偿。但关键是「理论上」三个字。「Pay Per Use」到现在只有Ceramic.ai和You.com两个合作伙伴，都是小玩家。OpenAI、Google、Anthropic这些大规模消耗内容的公司都没参与。而且还有现实矛盾，对小创作者来说，曝光是最稀缺的资源，屏蔽AI爬虫可能减少被发现的机会。大媒体屏蔽爬虫，Google搜索还是会收录；小博客屏蔽爬虫，可能就消失在互联网噪音里了。有组数据更让人清醒，AI聊天机器人带来的引荐流量比传统搜索少约96%，用户在AI回答中点击引用来源的概率只有约1%，出版商过去一年因AI搜索功能损失了20% - 90%不等的流量和收入。一项研究发现，Google的AI Overviews让外链点击量下降了约40%。这意味着，即便「Pay Per Use」全面铺开，付费规模可能也远不足以弥补出版商已损失的广告收入。这不是变局，更像是止损，而且未必能止住。Cloudflare报告称，超50%的AI爬虫流量花在重复抓取未更新的页面上。解决这种低效有价值，但解决效率问题和让创作者真正赚钱是两码事。

「菩萨」也有自己的庙

Cloudflare向来被用户赞为「赛博菩萨」，因为它确实做了有价值的事，把AI时代的数据掠夺从暗处拉到明处，逼AI公司说清「要数据干什么」。在bot流量超人类流量的互联网上，有人站出来喊「规矩不能这么没有」，值得肯定。但「菩萨」也有自己的考量。Cloudflare管理着全球约20%的网络流量，这数字说大不大。另外80%的网站不在其保护范围内，AI公司完全可以把数据采集重心转向非Cloudflare站点。Google和Apple的爬虫已提供形式上的选退工具，可能借此绕过Cloudflare的拦截。英国竞争与市场管理局（CMA）正从监管角度向Google施压，要求其让出版商在不影响搜索排名的前提下退出AI训练。一个基础设施公司的政策，不会让内容权益的重新分配尘埃落定。但它揭示了深层趋势，互联网的「收费站」正从搜索引擎转移到基础设施层。过去二十年，Google决定谁能被看见，现在Cloudflare想在更底层拦一道，要求过路者说清目的，按规矩来。收费站变了，但收费的人，未必变了。

查看全文

http://www.jsqmd.com/news/1131022/