第 14 篇:robots.txt 协议 —— 尊重站长的规则
一、什么是 robots.txt?
robots.txt是网站放在根目录下的一份纯文本文件,告诉搜索引擎和爬虫:
- 🤖哪些页面可以抓
- 🚫哪些页面不要抓
- ⏰抓取频率建议
历史上,robots.txt 是搜索引擎的"君子协议"。虽然法律强制力有限,但:
- ✅ 遵守 robots.txt 是行业惯例
- ✅ 大部分 ToS 引用了 robots.txt
- ✅ 司法实践中,违反 robots.txt 会加重责任
- ✅ 礼貌爬虫先读 robots.txt
URL:https://目标网站/robots.txt
二、robots.txt 的完整语法
2.1 一个真实示例(以豆瓣为例)
# robots.txt for Douban # 2019-04-24 User-agent: * Disallow: /subject_search Disallow: /shop/ Disallow: /musi