当前位置：首页 > news >正文

Python小说全本自动下载工具：支持网页解析、TXT/Markdown导出与SQLite本地存档

news 2026/7/2 21:45:24

本文还有配套的精品资源，点击获取

简介：这个Python工具能自动从小说网站批量抓取整本小说内容，包括章节链接获取、网页源码下载、正文文本提取、标题和作者信息识别等功能。运行main.py即可启动基础采集流程，无需额外配置，兼容Python 3.x环境。url_manager模块负责URL去重与任务调度；html_downloader完成HTTP请求并获取响应内容；html_parser精准解析HTML结构，分离小说名、章节标题、正文字体区域等关键字段；file_outputer支持将每章内容保存为纯文本TXT或带格式的Markdown文件，便于阅读或后续处理；db_manager提供SQLite数据库写入能力，把书名、章节名、正文、更新时间等结构化数据存入本地数据库，方便检索与管理；book_rank_main预留了排行榜页面抓取接口，可按需扩展。所有核心模块均附带.py源码及.pyc编译文件，目录中还包含requirements.txt说明依赖项，.gitignore和.inscode为开发辅助配置文件。
我用这套工具爬过二十多本百万字级网络小说，从起点、纵横到一些小众原创站，实测下来最稳的不是并发速度，而是容错能力——它不会因为某章页面结构微调就整本崩掉，也不会因反爬策略升级而彻底失联。核心关键词是：小说爬虫、Python抓取、SQLite存储、TXT导出、HTML解析。这不是一个“点开即用”的傻瓜工具，而是一套可调试、可追踪、可审计的采集工作流。它解决的不是“能不能下”，而是“下得准不准、存得稳不稳、查得快不快、改得顺不顺”。适合两类人：一是想批量保存个人阅读库的技术型读者（比如把喜欢的完结文存本地做离线备份）；二是需要快速构建小说数据集用于NLP训练、文本分析或内容推荐验证的开发者。它不碰版权红线——所有目标站点需自行确认可爬性，工具本身只做结构化解析与本地归档，不提供任何绕过登录、破解加密或高频压测的功能。

1. 整体架构设计与模块分工逻辑

1.1 为什么采用“分层解耦+单职责”设计？

很多新手写爬虫，习惯把URL获取、请求发送、解析提取、文件写入全塞进一个main.py里，结果一遇到页面结构变化，就得通篇翻代码改正则；一想加个数据库功能，又得重写IO逻辑。这套工具从第一天就拒绝这种“意大利面条式”写法，它的五层模块划分，本质是对网络采集生命周期的精准切片：

url_manager不只是去重，它承担了“任务队列中枢”的角色。它内部维护两个集合：new_urls（待抓取）和old_urls（已抓取），但关键在于它支持层级回溯标记——比如你从排行榜页（/top/month/）抓到100本书的详情页URL，再从每本详情页抓到200章目录URL，它能自动识别“这是第几层派生链接”，避免跨书混爬或章节页误判为新书页。这在小说站常见的“同名栏目嵌套”场景中极其重要（例如“玄幻”分类页里有“玄幻”标签的小说，其章节页URL也可能含/xuanhuan/路径）。
html_downloader的核心不是“发请求”，而是可控的请求韧性管理。它默认使用requests.Session()复用连接，但真正关键的是它内置了三重降级策略：第一层是timeout=(3, 8)（3秒连通，8秒读取），避免卡死；第二层是retry_strategy（基于urllib3.util.retry.Retry），对5xx错误自动重试3次，间隔指数退避；第三层是user_agent_fallback——当检测到响应头Server: nginx且状态码为403时，自动切换预设的5种UA字符串（含移动端、旧版Chrome、甚至模拟curl），而不是硬刚。我实测过，在某站启用Cloudflare初级防护后，其他脚本90%请求被拦，这套工具靠UA轮换+延迟重试，成功率仍保持在76%左右。
html_parser是整个系统的“眼睛”。它不依赖固定CSS选择器硬编码（如div.content p），而是采用双模匹配引擎：先用lxml.etree做DOM树遍历，定位<h1>、<title>等语义化标签提取书名/章节名；再对正文区域启动“字体密度扫描”——统计每个<p>、<div>内中文字符占比、行高CSS值、字体大小属性，选出连续5段以上中文密度>85%、行高>1.6em、字体大小≥14px的区块作为正文主干。这个设计源于大量小说站的实际观察：标题可能藏在<h2>或<span class="title">里，但正文永远集中在“视觉最密集的段落群”中。哪怕网站把<p>全换成<div>，只要排版逻辑不变，它就能稳住。
file_outputer的TXT/Markdown双输出不是简单格式转换。TXT模式会自动执行段落规整：合并被换行符打断的长句（如“他挥剑斩向”换行“妖魔” → 合并为“他挥剑斩向妖魔”），删除空行和纯符号行（如--------、***）；Markdown模式则注入语义增强标记：给每章标题加#前缀，给作者信息加> 作者：XXX引用块，给关键对话加**粗体（通过识别“开头、”结尾的连续文本块）。这不是炫技，而是为后续用Obsidian或Typora阅读时，能直接利用大纲视图跳转章节。
db_manager的SQLite设计直击本地存档痛点。它建了三张表：books（id, title, author, source_url, created_at）、chapters（id, book_id, chapter_title, chapter_order, updated_at）、content（id, chapter_id, raw_html, text_content, word_count）。关键在content表的raw_html字段用BLOB类型存储原始HTML源码（非文本），这样未来想重新解析样式、提取图片alt文本、或做DOM比对时，原始材料还在。而text_content字段存清洗后的纯文本，带段落编号（如[1] xxx\n[2] yyy），方便全文检索时定位具体段落。

提示：book_rank_main.py不是独立爬虫，而是url_manager的“扩展调度器”。它不实现解析逻辑，只负责从排行榜页（如/ranking/weekly/）提取<a href="/book/12345/">这类链接，然后批量推入url_manager.new_urls。这意味着你只需改写它的parse_rank_page()方法，就能适配任意新站的榜单结构，无需动其他模块。

1.2 模块间通信为何不用全局变量或配置文件？

所有模块间数据传递，严格通过函数参数显式传递。比如html_parser.parse_page(html_content, url)接收原始HTML和当前URL两个参数，返回一个dict：{'book_title': 'xxx', 'chapter_title': 'yyy', 'content': 'zzz'}。这样做有三个硬性好处：
第一，可测试性——你可以单独导入html_parser，传入一段mock HTML字符串，立刻验证解析结果，无需启动整个爬虫流程；
第二，可追溯性——当某章内容解析错误时，日志里会明确记录[ERROR] parse_page failed for url: https://xxx.com/chapter/789, html_length: 12456，你能直接拿这段HTML去调试，而不是在一堆全局变量里猜哪一步污染了数据；
第三，可替换性——如果你想把html_parser换成基于BeautifulSoup4的版本，只要保证输入输出接口一致，其他模块完全不用改。我在测试阶段就用这种方式，同时跑了lxml版和bs4版解析器，对比它们对JavaScript渲染页面的兼容性（结论：lxml对静态HTML快3倍，bs4对含<script>动态插入内容的页面容错更好）。

1.3 为什么SQLite而非JSON或CSV做本地存档？

有人问：“存本地不就图个简单？JSON一行一个章节不更直观？”——这是典型的经验盲区。我们来算一笔账：一本500章的小说，每章平均2000字，纯文本约1MB。如果存JSON：
- 每章需包裹{"title":"xxx","content":"yyy"}，额外增加约50字开销 → 总体积涨5%；
- 更致命的是查询效率：你想查“包含‘剑气’二字的所有章节”，JSON得逐行读取、json.loads()、in判断，500章要500次IO；SQLite一条SELECT chapter_title FROM chapters JOIN content ON chapters.id=content.chapter_id WHERE text_content LIKE '%剑气%'，毫秒级返回。
CSV更糟：无法建索引，中文字段需处理引号转义，更新某章内容得重写整个文件。而SQLite的ACID特性保障了即使程序崩溃，数据库也不会损坏——我曾故意在写入第300章时关机，重启后PRAGMA integrity_check显示ok，缺失的章节自动补全。这才是生产级本地存档该有的样子。

2. 核心模块细节解析与实操要点

2.1 url_manager：URL去重不只是哈希，更是层级感知

url_manager.py的核心类是UrlManager，它内部维护三个数据结构：
-new_urls: set()—— 待抓取URL集合（内存级，避免重复入队）
-old_urls: set()—— 已抓取URL集合（内存级，防止循环爬取）
-url_history: list[tuple(url, depth, parent_url)]—— URL溯源链表（磁盘级，存于history.dbSQLite文件）

关键创新点在add_new_url(self, url, depth=0, parent_url=None)方法：

def add_new_url(self, url, depth=0, parent_url=None): # 步骤1：标准化URL（移除锚点、统一协议、小写host） normalized = self._normalize_url(url) if normalized in self.new_urls or normalized in self.old_urls: return False # 步骤2：深度过滤（防无限爬深） if depth > self.max_depth: # 默认max_depth=3 return False # 步骤3：路径模式白名单（小说站常见路径特征） path = urlparse(normalized).path if not any(pattern in path for pattern in ['/book/', '/novel/', '/read/', '/chapter/']): return False # 步骤4：加入队列并记录溯源 self.new_urls.add(normalized) self.url_history.append((normalized, depth, parent_url)) return True

这个设计解决了三个真实痛点：
-防伪链接：某站会在章节页底部加“相关推荐”链接，指向其他书的目录页（如/book/67890/），但路径是/recommend/xxx。path白名单直接过滤掉，避免爬偏；
-防深度爆炸：排行榜页（depth=0）→ 详情页（depth=1）→ 章节列表页（depth=2）→ 具体章节页（depth=3），超过depth=3的链接（如评论页、作者页）自动丢弃；
-可审计溯源：url_history表里存着parent_url，当你发现某章内容异常，可以顺着parent_url一路回溯到源头，快速定位是排行榜页解析错了，还是详情页的章节链接提取逻辑有Bug。

注意：.gitignore里排除了history.db，因为它是运行时生成的临时审计数据，不应纳入版本控制。但.inscode（InsCode IDE配置）里启用了sqlite3插件，方便开发者直接在IDE里打开novel.db查看结构。

2.2 html_downloader：不只是requests，而是请求策略引擎

html_downloader.py的HtmlDownloader类封装了四层策略：

第一层：Session复用与Cookie保鲜

self.session = requests.Session() self.session.headers.update({ 'User-Agent': random.choice(self.UA_LIST), 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7', }) # 自动处理Set-Cookie，维持登录态（如果目标站需要）

第二层：智能超时与重试

retry_strategy = Retry( total=3, status_forcelist=[429, 500, 502, 503, 504], method_whitelist=["HEAD", "GET", "OPTIONS"], backoff_factor=1 # 第一次重试延1秒，第二次2秒，第三次4秒 ) adapter = HTTPAdapter(max_retries=retry_strategy) self.session.mount("http://", adapter) self.session.mount("https://", adapter)

第三层：UA轮换与指纹混淆
预设5种UA字符串，每次请求随机选一个，并在headers里添加X-Forwarded-For（随机生成国内IP段，如114.114.114.114），这不是为了伪装成真人，而是规避基于UA+IP组合的简单频控。

第四层：响应质量校验
下载后不直接返回response.text，而是执行：

if response.status_code != 200: raise DownloadError(f"HTTP {response.status_code}") if len(response.content) < 1024: # 小于1KB视为无效响应（可能是跳转页、拦截页） raise DownloadError("Response too small") if b'<title>404' in response.content or b'Not Found' in response.content: raise DownloadError("Page not found")

实操心得：我在爬某站时发现，它对requests库有UA黑名单（含python-requests字样），但对curl/7.68.0完全放行。于是我把UA_LIST里加了一条curl/7.68.0，问题当场解决。这说明：反爬不是技术对抗，而是策略博弈——有时换条“船”比加固“船体”更有效。

2.3 html_parser：DOM解析+视觉密度双引擎

html_parser.py的HtmlParser类核心方法parse_page()执行三步：

步骤1：基础元信息提取（语义优先）

tree = etree.HTML(html_content) # 书名：优先取<title>，其次<meta property="og:title">，最后<h1> book_title = (tree.xpath('//title/text()') or tree.xpath('//meta[@property="og:title"]/@content') or tree.xpath('//h1/text()'))[0].strip() # 章节名：取<h1>或<article>内第一个<h2> chapter_title = (tree.xpath('//h1/text()') or tree.xpath('//article//h2[1]/text()'))[0].strip()

步骤2：正文区域定位（视觉密度扫描）

# 获取所有可能的文本容器 candidates = tree.xpath('//p | //div[@class="content"] | //section') text_blocks = [] for elem in candidates: text = ''.join(elem.itertext()).strip() if len(text) < 50: # 过短忽略（可能是广告、导航） continue # 计算中文密度（正则匹配汉字Unicode范围） chinese_chars = re.findall(r'[\u4e00-\u9fff]', text) density = len(chinese_chars) / len(text) if text else 0 if density > 0.7: text_blocks.append({ 'text': text, 'density': density, 'length': len(text), 'elem': elem }) # 按密度和长度排序，取Top3连续区块（模拟人眼阅读聚焦） text_blocks.sort(key=lambda x: (x['density'], x['length']), reverse=True) main_content = '\n\n'.join([b['text'] for b in text_blocks[:3]])

步骤3：文本清洗与标准化
- 删除所有HTML标签残留（如<br>替换为\n， 替换为空格）
- 合并被<wbr>或零宽空格打断的词语（如“剑气” → “剑气”）
- 统一标点：全角逗号、句号、引号替换为标准中文标点
- 段落规整：连续两个\n以上压缩为\n\n，确保段间距一致

实操心得：某站用<span style="font-size:12px;">包裹广告，但正文<p>是14px。我最初只按字体大小筛选，结果把广告当正文。后来改成“字体大小≥14px且行高≥1.6em且中文密度>85%”三重条件，准确率从92%升到99.3%。这提醒我：单一维度阈值永远不够，必须多维交叉验证。

2.4 file_outputer：不只是写文件，而是阅读体验预构建

file_outputer.py的FileOutputer类提供output_txt()和output_md()两个方法，差异远不止后缀名：

TXT模式核心逻辑：
- 文件名格式：《{book_title}》_{author}_{chapter_title}.txt（自动过滤非法字符如/ \ : * ? " < > |）
- 内容头部插入元信息块：

《剑来》 作者：烽火戏诸侯 更新时间：2023-10-15 14:22:33 章节：第一百二十三章 风起青萍末 ---------------------------------------- （正文开始）

正文内自动插入章节分隔符：每5000字插入【下一页】，方便手机阅读时手动翻页。

Markdown模式核心逻辑：
- 文件名：{book_title}_{chapter_order:04d}_{chapter_title}.md（如剑来_0123_风起青萍末.md），便于按数字排序
- 内容结构：

# 《剑来》 > 作者：烽火戏诸侯 > 更新时间：2023-10-15 14:22:33 > 章节：第一百二十三章 风起青萍末 --- ## 正文 （清洗后的正文，每段以`>`引用块包裹，提升可读性） > 陈平安站在山巅，望着远处翻涌的云海…… > 他忽然想起师父说过的话：“剑气，不在剑上，在心上。”

自动识别对话：用正则r'“([^”]+)”'匹配双引号内文本，包裹为**“xxx”**，在Obsidian中可设置CSS高亮对话。

注意：requirements.txt里指定lxml==4.9.3而非最新版，因为4.9.3对中文HTML的编码识别最稳（新版有时会把GBK网页误判为UTF-8导致乱码）。这是踩过坑后锁定的“黄金版本”。

3. 实操全流程与关键环节实现

3.1 环境准备与依赖安装（3分钟搞定）

整个工具链仅依赖5个包，requirements.txt内容极简：

requests==2.28.2 lxml==4.9.3 beautifulsoup4==4.11.2 PyYAML==6.0 click==8.1.3

安装命令一行解决：

pip install -r requirements.txt

为什么不用pipenv或poetry？因为目标用户是“想快速存小说”的普通读者，不是专业开发者。pip install兼容所有Python 3.6+环境，连Windows PowerShell、macOS Terminal、Linux Bash都能一键跑通。我特意测试过：在一台刚装好Python 3.9的Mac上，执行上述命令后，python main.py --help立即输出帮助文档，无任何编译报错。

提示：gKxrgcFVmMweFxo70kMv-master-38d06d4e5c057a4cce4660feb031b3510b4bddce这个长文件名是GitHub仓库的commit hash，说明资源包来自某个开源项目的特定提交版本。这意味着你拿到的就是经过验证的稳定快照，不是master分支上随时可能变动的“开发版”。

3.2 首次运行：从main.py启动基础流程

main.py是入口脚本，它不做业务逻辑，只做三件事：
1. 解析命令行参数（--book-url,--output-format,--db-path等）
2. 初始化各模块实例（UrlManager(),HtmlDownloader(),HtmlParser()…）
3. 启动主循环：while url_manager.has_new_url():

最简启动方式（爬取单本书）：

python main.py --book-url "https://www.xxx.com/book/12345/" --output-format txt

执行过程分五阶段：
-阶段1：种子URL注入
url_manager.add_new_url("https://www.xxx.com/book/12345/", depth=0)
-阶段2：详情页抓取与解析
html_downloader.download("https://www.xxx.com/book/12345/")→html_parser.parse_book_page()提取书名、作者、章节列表URL
-阶段3：章节页批量入队
解析出的500个/chapter/12345/678链接，全部以depth=1加入new_urls
-阶段4：章节页并发抓取
启动5个线程（可配置），每个线程从new_urls取URL，下载、解析、输出、存库，完成后将URL移入old_urls
-阶段5：完成收尾
所有URL处理完毕，file_outputer生成汇总报告（如《剑来》共523章，总字数182万，耗时23分17秒），db_manager执行VACUUM优化数据库

实操心得：首次运行建议加--debug参数，它会开启详细日志（记录每个URL的下载耗时、解析结果、SQL执行语句）。我在调试某站时发现，第127章解析耗时12秒，日志显示lxml.etree.HTML()卡住——原来是该章HTML里有未闭合的<script>标签。解决方案：在html_downloader里加response.content.decode('utf-8', errors='ignore')，强制忽略编码错误。这个细节不会写在文档里，但日志帮你揪出来。

3.3 SQLite数据库结构详解与查询实战

db_manager.py创建的novel.db包含三张表，结构如下：

表名	字段	类型	说明
`books`	`id`	INTEGER PRIMARY KEY	书籍唯一ID
`title`	TEXT NOT NULL	书名（已去重空格）
`author`	TEXT	作者名
`source_url`	TEXT	原始详情页URL
`created_at`	TIMESTAMP DEFAULT CURRENT_TIMESTAMP	入库时间
`chapters`	`id`	INTEGER PRIMARY KEY	章节唯一ID
`book_id`	INTEGER NOT NULL	外键，关联books.id
`chapter_title`	TEXT NOT NULL	章节标题
`chapter_order`	INTEGER NOT NULL	章节序号（1,2,3…）
`updated_at`	TIMESTAMP DEFAULT CURRENT_TIMESTAMP	最后更新时间
`content`	`id`	INTEGER PRIMARY KEY	内容唯一ID
`chapter_id`	INTEGER NOT NULL	外键，关联chapters.id
`raw_html`	BLOB	原始HTML源码（二进制存储）
`text_content`	TEXT NOT NULL	清洗后纯文本
`word_count`	INTEGER DEFAULT 0	中文字数统计

常用查询示例：
- 查某本书所有章节：
sql SELECT c.chapter_order, c.chapter_title, c.updated_at FROM chapters c JOIN books b ON c.book_id = b.id WHERE b.title = '剑来' ORDER BY c.chapter_order;
- 查包含关键词的章节（全文检索）：
sql -- 需先启用FTS5（SQLite全文检索） CREATE VIRTUAL TABLE content_fts USING fts5(text_content, content='content', content_rowid='id'); INSERT INTO content_fts(content_fts, rowid, text_content) SELECT id, text_content FROM content; -- 查询 SELECT c.chapter_title, c.chapter_order FROM chapters c JOIN content co ON c.id = co.chapter_id WHERE co.id IN (SELECT rowid FROM content_fts WHERE text_content MATCH '剑气');
- 统计每本书字数：
sql SELECT b.title, SUM(co.word_count) as total_words FROM books b JOIN chapters c ON b.id = c.book_id JOIN content co ON c.id = co.chapter_id GROUP BY b.title ORDER BY total_words DESC;

注意：db_manager在初始化时会自动检查novel.db是否存在，不存在则建表；存在则校验表结构是否匹配（通过PRAGMA table_info(books)比对字段），不匹配则抛出DBSchemaMismatchError。这避免了旧版数据库被新版代码误操作导致数据丢失。

3.4 扩展book_rank_main：从排行榜批量抓取100本书

book_rank_main.py是预留的“批量入口”，它不直接爬小说，而是做一件事：从榜单页提取所有书籍详情页URL，批量推入url_manager。

使用方式：

python book_rank_main.py --rank-url "https://www.xxx.com/ranking/weekly/" --max-books 100

其核心逻辑在parse_rank_page()方法：

def parse_rank_page(self, html_content): tree = etree.HTML(html_content) # 通用XPath：找所有指向/book/xxx/的<a>标签 book_links = tree.xpath('//a[contains(@href, "/book/")]/@href') # 去重并标准化 book_urls = [urljoin(self.rank_url, link) for link in book_links] book_urls = list(set(book_urls)) # 去重 return book_urls[:self.max_books] # 截取前N本

实操中我发现，不同站的榜单结构千差万别：
- A站：<div class="book-item"><a href="/book/123/">《剑来》</a></div>→ 用//div[contains(@class,"book-item")]//a/@href
- B站：用JavaScript动态渲染，HTML里只有<div id="rank-list"></div>→ 需改用requests-html或playwright，但本工具不内置，需你自己扩展；
- C站：榜单分页，URL是/ranking/weekly/?page=2→ 在book_rank_main.py里加for page in range(1, 6):循环抓取。

这就是设计的精妙处：它给你留了钩子，但不替你做决定。你根据目标站实际情况，只改parse_rank_page()这一小段，就能适配新站，其他模块完全不动。

4. 常见问题与排查技巧实录

4.1 典型问题速查表

问题现象	可能原因	排查命令/方法	解决方案
`main.py`报错`ModuleNotFoundError: No module named 'lxml'`	lxml未安装或安装失败	`pip show lxml`	重装：`pip uninstall lxml && pip install lxml==4.9.3`（指定版本）
爬取速度极慢（单章>30秒）	目标站返回503或连接超时	`python main.py --book-url "xxx" --debug`查日志	在`html_downloader.py`里调大`timeout`参数，或检查网络代理设置
解析出的正文全是广告/导航栏	视觉密度扫描阈值过低	日志中搜`[DEBUG] candidate block: length=200, density=0.3`	修改`html_parser.py`中`density > 0.7`为`density > 0.85`
TXT文件里出现乱码（如`ææå`）	网页编码识别错误	`file_outputer.py`中`open(..., encoding='utf-8')`报错	改为`open(..., encoding='gbk', errors='ignore')`，或用`chardet`库自动检测
SQLite数据库里`text_content`字段为空	`html_parser`返回空字符串	日志中搜`[WARNING] parse_page returned empty content for url:`	检查该URL的HTML源码，看是否被JS渲染，或`<p>`标签被包裹在`<div style="display:none">`里
`book_rank_main.py`只抓到1本书	XPath匹配不到链接	`curl -s "xxx" \\| grep -o '/book/[0-9]\+'`	用浏览器开发者工具复制真实XPath，替换`parse_rank_page()`里的`xpath()`调用

4.2 我踩过的三个深坑及独家解法

坑1：某站用<p># 在html_downloader.download()里 if "dynamic-site.com" in url: from playwright.sync_api import sync_playwright with sync_playwright() as p: browser = p.chromium.launch() page = browser.new_page() page.goto(url) html_content = page.content() browser.close() else: # 用requests正常下载

这个补丁只加了12行代码，却让工具覆盖了95%的静态站+5%的轻度JS站，性价比极高。

坑2：章节标题里含/导致文件名创建失败（Windows报错）
现象：《剑来》/第一百章/生成文件时报OSError: Invalid argument。
解法：在file_outputer.py的_sanitize_filename()方法里，把非法字符映射为全角符号：

ILLEGAL_CHARS = {'<':'〈', '>':'〉', ':':'：', '"':'＂', '/':'／', '\\':'＼', '|':'｜', '?':'？', '*':'＊'} def _sanitize_filename(self, name): for char, replacement in ILLEGAL_CHARS.items(): name = name.replace(char, replacement) return name

这样《剑来》/第一百章/变成《剑来》／第一百章／，Windows可正常创建。

坑3：SQLite数据库越来越大，查询变慢
现象：存了50本书后，SELECT * FROM content WHERE text_content LIKE '%xxx%'要5秒。
解法：启用SQLite的FTS5全文检索（已在3.3节介绍），并定期优化：

# 命令行执行 sqlite3 novel.db "PRAGMA journal_mode=WAL;" sqlite3 novel.db "VACUUM;" sqlite3 novel.db "ANALYZE;"

实测：100本书（2GB数据库）全文检索从5秒降到80毫秒。

4.3 性能调优与安全边界设定

工具默认并发线程数为5，这是平衡速度与隐蔽性的经验值：
- 并发10+：多数小说站会触发IP限速（返回503或空白页）
- 并发3以下：效率太低，500章要爬3小时以上

你可以在main.py里调整：

# 找到ThreadPoolExecutor(max_workers=5)，改为 with ThreadPoolExecutor(max_workers=3) as executor:

更重要的是时间间隔控制：
html_downloader.py里有个隐藏参数self.delay_range = (1.5, 3.0)，表示每次请求后随机休眠1.5~3秒。这不是为了“反反爬”，而是尊重服务器资源——你半夜爬，不影响别人白天访问。我把它写死在代码里，没暴露为命令行参数，就是怕有人设成0.1秒疯狂刷，最后害得整个IP段被封。

最后分享个小技巧：想快速验证工具是否正常？用python main.py --book-url "https://httpbin.org/html"（httpbin是测试用HTTP服务）。它返回标准HTML，html_parser能正确提取<h1>，file_outputer生成test.txt，全程无网络依赖。这是我每次升级后必跑的冒烟测试。

我个人在实际使用中发现，这套工具真正的价值不在“能爬多少”，而在于每一次失败都留下可追溯的线索——日志里有URL、有HTML长度、有解析耗时、有SQL语句。当某章内容不对时，我不用猜，直接打开history.db找到那个URL，用curl重取，再用lxml单步调试。它让我从“爬虫使用者”变成了“爬虫审计员”。如果你也想掌握这种确定性，不妨从读懂html_parser.py里那37行视觉密度扫描代码开始。

本文还有配套的精品资源，点击获取

查看全文

http://www.jsqmd.com/news/1111358/

相关文章：

从钢琴录音到精美乐谱：揭秘自动化音乐转录技术

责任塌缩概率模型 v2.0 — 原文（龍魂内部版）

哔哩下载姬DownKyi：5分钟掌握B站视频下载与管理的终极指南

S7-200 PLC与组态王联合实现装车送料三段传送带全自动运行（含梯形图、IO表、接线图及监控画面）

2026终极指南：如何一键重置JetBrains IDE试用期的完整解决方案

用Gamma 5分钟将大纲变成精美PPT教程

Qwen3-32B推理性能优化：NUMA绑核与内存调度实战

大模型学习笔记 · 第五篇 · LoRA 与省显存训练

本科毕设可用的智慧校园系统源码包：SpringBoot后端+Vue前端，含论文、视频与完整部署文档

2026手机免费去水印APP推荐安卓苹果通用！无广告安全软件+免下载小程序教程

家电保养清洁小技巧

PhotoRec数据恢复终极指南：从误删到格式化的完整救援教程

ERRWRITE

为什么“开五次根号”等价于“指数是五分之一”

AI工程师必备：高可信度AI资讯简报的筛选逻辑与落地实践

Matlab手眼标定一键运行包：含主程序、相机与机械臂位姿处理脚本及详细操作说明

真心安利！这款免费无套路的全能AI工具，日常办公学习太够用了

TrafficMonitor插件终极指南：Windows任务栏信息监控的完整解决方案

RePKG：5分钟快速上手，如何用开源工具解锁Wallpaper Engine壁纸资源

Python cryptography库实战：从零构建端到端加密聊天应用

MATLAB结构光超分辨SIM重建全套函数：从频域估计到Hessian增强可视化

左脚踩右脚进击多模态：用 Agent 自进化训练，让 VLM 与视频生成模型真正“长出眼睛和导演思维”

DownKyi终极解析：从传统下载到智能管理的技术革命

家电故障排查先看这几步

JetBrains IDE试用期重置终极指南：告别30天限制的智能解决方案

数字时钟 FPGA 设计 VHDL Quartus（2）

XUnity.AutoTranslator完全指南：让Unity游戏瞬间实现多语言翻译的终极解决方案

F2：多平台内容采集的 Python 工具

如何高效使用哔哩下载姬DownKyi：免费批量下载B站视频完整实战指南

碧蓝航线智能管家Alas：7×24小时解放双手的终极解决方案