第 39 篇:数据存储——MongoDB 数据库
上一篇我们学习了 MySQL,它是关系型数据库的代表。但在爬虫场景中,数据往往结构不规则、字段经常变化、嵌套层级深——这时候用 MySQL 会很痛苦:频繁改表、处理 NULL、JOIN 复杂……
MongoDB就是为这种场景而生的。它是一款文档型 NoSQL 数据库,数据以 JSON(BSON)形式存储,天然适合爬虫。
本篇我们将系统学习:
- MongoDB 的基本概念与安装;
- Python 驱动
pymongo的完整用法; - CRUD、索引、聚合管道;
- 爬虫场景下的最佳实践;
- 实战项目:把豆瓣 Top 250 存到 MongoDB。
一、为什么选 MongoDB
1.1 什么是 MongoDB
MongoDB 是一个开源的文档型数据库,特点:
- 文档存储:数据是 BSON(Binary JSON)文档,类似于 JSON;
- 灵活模式:同一个集合里的文档可以有不同的字段;
- 高性能:内存映射存储引擎,写入极快;
- 高可用:副本集(Replica Set);
- 水平扩展
