当前位置：首页 > news >正文

Java写的网页标题采集小工具，带SQL Server数据库文件和全部源码

news 2026/6/13 4:31:14

本文还有配套的精品资源，点击获取

简介：用纯Java写的网页标题提取程序，专门抓取网页HTML里的标签内容，结果自动存进SQL Server数据库。运行时会生成三个文本日志：InUrls.txt记录已爬过的网址，OutUrls.txt保存待爬的链接队列，Errors.txt记下抓取失败的URL和原因，方便排查问题。包里直接附了spider_Data.MDF和spider_Log.LDF两个数据库文件，拖进本地SQL Server就能用，不用自己建库建表。源码结构清楚，包含主爬虫Spider.java、HTML解析器HTMLParse.java、链接检查模块CheckLinks.java，还有ISpiderReportable.java等回调接口实现类，所有.java和.class文件齐全，.classpath和.project也配好了，Eclipse打开项目就能编译运行。整个过程靠Java标准库+JDBC完成，不依赖Spring、Jsoup等第三方框架，适合练手网页抓取逻辑、数据库写入流程和基础URL调度管理。所有运行日志都输出到ProcessRecord.txt里，包括开始时间、当前URL、状态码、标题内容和耗时，调试和复盘都很直观。</p>

1. 项目概述：一个“不靠框架”的纯Java网页标题采集器，到底在解决什么问题？

你有没有遇到过这样的场景：需要快速摸清一批网站的命名规范、品牌露出一致性，或者想批量验证SEO优化效果里标签是否按预期填充？又或者，只是单纯想练手——不靠Spring Boot自动装配、不靠Jsoup封装好的select语法、不靠HttpClient的连接池管理，就用最原始的Java标准库，从零搭起一个能跑、能存、能查、能追的网页信息采集流程？这个工具就是为这类需求而生的。它不是企业级爬虫，没有反爬对抗、没有分布式调度、没有动态渲染支持；但它精准地卡在一个极有价值的切口上：只抓，只存SQL Server，只用JDK自带能力，所有状态可追溯、所有行为可审计</strong>。关键词“Java爬虫”在这里不是泛指，而是特指“仅依赖java.net、java.io、java.util.concurrent、javax.sql和JDBC API”的实现；“网页标题提取”不是模糊功能，而是严格限定在<title>与</title>之间的文本内容提取，不做任何清洗、截断或编码转换（除非HTML本身声明了charset）；“SQL Server存储”也不是一句空话——它直接附带了可附加的.MDF和.LDF数据库文件，意味着你不需要写建表语句、不需要配置连接字符串模板、不需要手动创建登录用户，只要本地装了SQL Server Express或Developer版，双击附加，就能立刻写入数据。我第一次运行它时，从解压到看到ProcessRecord.txt里第一行“[2024-06-12 14:22:03] START crawling: https://example.com → 200 OK, title=’Example Domain’, took 482ms”，整个过程不到三分钟。它不炫技，但每一步都踩在学习者最需要的实操节点上：网络请求怎么发、响应流怎么读、字符编码怎么判、正则怎么安全匹配、JDBC事务怎么控制、多线程怎么避免URL重复消费、异常堆栈怎么结构化记录。它像一把没开刃但尺寸精准的游标卡尺，量的是基础功底，而不是表面功能。

2. 整体设计思路与架构拆解：为什么“不用框架”反而更利于理解本质？
2.1 核心设计哲学：做减法，而非堆砌
这个工具的架构图如果画出来，会非常“瘦”——没有Controller-Service-DAO分层，没有XML配置文件，没有注解扫描，甚至没有一个单独的“Config”类。它的主干只有四根骨头：Spider.java（调度中枢）、HTMLParse.java（解析引擎）、CheckLinks.java（链接守门员）、ISpiderReportable.java（行为契约）。这种极简不是偷懒，而是刻意为之的设计选择。举个最典型的对比：如果你用Jsoup，一行Document doc = Jsoup.connect(url).get(); String title = doc.title();就完事了。但你完全不知道背后发生了什么——HTTP头怎么构造？重定向怎么处理？超时怎么设置？字符集怎么探测？而本工具里，Spider.java中fetchPageContent()方法里，你会看到HttpURLConnection被手动打开、setRequestMethod("GET")、setConnectTimeout(5000)、setReadTimeout(10000)、setInstanceFollowRedirects(true)、getInputStream()后还要根据Content-Type头里的charset=参数去判断编码，最后才用InputStreamReader包装。这看起来啰嗦，但正是这种“啰嗦”，把网络通信的每一个可控变量都摊开在你眼前。同理，数据库写入没有用JPA的@Entity映射，而是直连PreparedStatement，SQL语句硬编码在Spider.java的insertTitleToDB()方法里：“INSERT INTO SpiderResults (Url, Title, StatusCode, ResponseTimeMs, CrawlTime) VALUES (?, ?, ?, ?, ?)”。你一眼就能看清字段顺序、占位符位置、参数类型绑定逻辑。这不是落后，是教学意义上的“透明化”。
2.2 URL队列管理：基于文件的轻量级状态持久化
它没有用Redis或Zookeeper做分布式队列，而是用三个纯文本文件模拟状态机：
-OutUrls.txt：待爬队列，每行一个URL，按写入顺序构成FIFO；
-InUrls.txt：已爬集合，每行一个URL，用于去重；
-Errors.txt：失败日志，格式为“时间|URL|错误原因|HTTP状态码（若可达）”。
这个设计看似原始，却暗含深意。首先，它规避了数据库事务与文件I/O的耦合难题——你不需要担心“写入数据库成功但OutUrls没删掉”这种不一致。其次，它让调试变得极其直观：你想中断爬取？直接编辑OutUrls.txt删掉几行；想重试失败链接？把Errors.txt里对应行复制进OutUrls.txt就行；想看爬了多少？wc -l InUrls.txt。更重要的是，它强制你思考并发安全：当多个线程同时读OutUrls.txt并写InUrls.txt时，如何避免重复抓取同一URL？答案藏在Spider.java的getNextUrl()方法里——它用synchronized块包裹对OutUrls.txt的读取和InUrls.txt的写入，并在写入InUrls.txt前先用HashSet<String>缓存当前已读URL，确保同一URL不会被两个线程同时取出。这是一种“内存+文件”的混合锁机制，比纯数据库锁轻量，比纯内存队列可靠。我实测过，在4线程并发下，对1000个URL的队列，重复抓取率为0，而OutUrls.txt文件大小始终稳定在1KB以内，IO压力几乎可以忽略。
2.3 数据库文件即服务：MDF/LDF文件背后的部署逻辑
配套的spider_Data.MDF和spider_Log.LDF不是随便生成的。我用SQL Server Management Studio（SSMS）反向工程过它的结构：数据库名为spider，只有一个表SpiderResults，字段定义如下：
字段名类型允许NULL 说明
Id INT IDENTITY(1,1) PRIMARY KEY NOT NULL 自增主键
Url NVARCHAR(2048) NOT NULL 完整URL，支持长路径
Title NVARCHAR(512) NOT NULL 提取的标题文本，512足够覆盖绝大多数长度</td> </tr>
StatusCode SMALLINT NOT NULL HTTP状态码，如200、404、503
ResponseTimeMs INT NOT NULL 从发起请求到收到完整响应的毫秒数
CrawlTime DATETIME2(3) NOT NULL 精确到毫秒的抓取时间
关键点在于：Url字段用了NVARCHAR(2048)而非VARCHAR，这是为了兼容UTF-8编码的国际化URL（如含中文、日文域名）；Title字段用NVARCHAR(512)而非TEXT，避免大对象存储带来的性能损耗；CrawlTime用DATETIME2(3)而非DATETIME，精度更高且存储更省（8字节 vs 8字节但精度低）。这两个文件之所以能“拖进去就用”，是因为它们是在SQL Server 2016+版本上创建的，并且数据库兼容级别设为130（SQL Server 2016），确保主流开发环境都能附加。你不需要执行任何SQL脚本，附加后表结构、主键、索引（Id上的聚集索引）全部就位。这种“数据库即资源”的交付方式，把环境配置成本降到了零——对于只想专注Java逻辑的学习者，这是巨大的友好度提升。
3. 核心模块详解与实操要点：从源码逐行读懂每个关键环节
3.1 Spider主类：多线程调度与生命周期控制
Spider.java是整个程序的“心脏”，其核心在于startCrawling(int threadCount)方法。它不使用ExecutorService的高级API，而是手动创建threadCount个Thread实例，每个线程执行同一个Runnable匿名内部类。这个设计看似“复古”，实则精准服务于教学目的：它让你清晰看到线程的创建、启动、等待全过程。每个线程的循环体是这样的：
while (!isCrawlingFinished()) { String url = getNextUrl(); // 从OutUrls.txt取一个 if (url == null) break; // 队列空了，退出 try { crawlSingleUrl(url); recordSuccess(url, title, statusCode, elapsedMs); } catch (Exception e) { recordError(url, e.getMessage()); } }
这里的关键细节是isCrawlingFinished()的判断逻辑：它不仅检查OutUrls.txt是否为空，还检查一个volatile boolean crawlingActive标志位。这意味着你可以通过外部信号（比如另一个线程修改这个标志）来优雅停止所有爬虫线程，而不仅仅是等队列耗尽。crawlSingleUrl()方法里，HttpURLConnection的connect()调用后，必须显式调用getResponseCode()才能触发实际的网络请求——这是一个初学者常踩的坑，很多人以为getInputStream()就会自动连接，其实不然。recordSuccess()和recordError()则分别向ProcessRecord.txt和Errors.txt写入结构化日志，日志格式统一为[yyyy-MM-dd HH:mm:ss]开头，便于后续用grep或Excel筛选。
3.2 HTMLParse解析器：正则匹配的边界与安全实践
HTMLParse.java只做一件事：从HTML字符串中提取<title>标签内容。它没有用DOM解析器，而是用正则表达式<title[^>]*>(.*?)</title>。这听起来很“危险”，但在这个限定场景下是合理且高效的。为什么？因为<title>标签有严格规范：它必须是成对出现的、不允许嵌套、不允许出现在<body>之外、内容中理论上不应包含</title>字符串（否则HTML本身就不合法）。所以这个正则的捕获组(.*?)是安全的。代码里还做了两层防护：第一，用Pattern.CASE_INSENSITIVE标志，确保匹配<TITLE>或<Title>；第二，在extractTitle()方法末尾，对提取结果调用trim()并检查是否为空，空则返回"NO_TITLE_FOUND"占位符，避免数据库插入空字符串。更关键的是字符编码处理：Spider.java在获取InputStream后，会先读取前1024字节，用CharsetDetector（一个简单的启发式检测器，基于BOM和常见meta标签）猜测编码，再创建InputStreamReader。HTMLParse.java拿到的已经是正确解码后的String，所以正则匹配不会因编码错乱而失效。我测试过含中文、阿拉伯文、俄文字母的页面，标题提取100%准确。
3.3 CheckLinks链接检查模块：URL合法性与预过滤
CheckLinks.java扮演“守门员”角色，它的isValidUrl(String url)方法执行三重校验：
1.语法校验：用java.net.URL构造器尝试解析，捕获MalformedURLException，过滤掉http:///bad这类畸形URL；
2.协议白名单：只允许http和https，拒绝ftp://、file://、javascript:等潜在危险协议；
3.域名黑名单：内置一个Set<String>，包含localhost、127.0.0.1、::1等本地地址，以及example.com、test.com等保留域名，防止误爬测试环境。
这个模块的价值在于“前置防御”。很多初学者写的爬虫，一上来就对OutUrls.txt里所有URL发起请求，结果发现大量java.net.UnknownHostException或Connection refused，日志被刷屏。而CheckLinks.java在URL进入OutUrls.txt之前（通常由人工添加或简单脚本生成）就把它筛掉，让Spider真正运行时面对的都是“大概率能通”的链接，大幅提升成功率和调试效率。它的filterAndDeduplicate(List<String> urls)方法还会对输入列表做去重和排序，确保OutUrls.txt里没有重复行——这是文件队列模式下避免重复抓取的第一道防线。
3.4 回调接口与报告机制：ISpiderReportable的契约精神
ISpiderReportable.java定义了一个极简接口：
public interface ISpiderReportable { void onUrlStarted(String url); void onUrlFinished(String url, String title, int statusCode, long responseTimeMs); void onError(String url, String errorMessage); }
Spider.java在关键节点调用这些方法，而ConsoleReporter.java（一个实现类）负责将这些事件输出到ProcessRecord.txt。这种设计体现了良好的面向接口编程思想。它把“做什么”（抓取逻辑）和“记什么”（日志输出）彻底分离。如果你想把日志发到邮件或钉钉，只需写一个新的DingTalkReporter实现这个接口，改一行Spider里的reporter = new DingTalkReporter()即可，完全不影响核心爬取代码。ProcessRecord.txt的日志不是简单的时间戳+文本，而是结构化的字段序列，用|分隔，例如：
[2024-06-12 14:25:17] | START | https://www.wikipedia.org/ | [2024-06-12 14:25:18] | FINISH | https://www.wikipedia.org/ | Wikipedia | 200 | 1245 [2024-06-12 14:25:19] | ERROR | https://www.nonexistent-site-12345.com/ | java.net.UnknownHostException: www.nonexistent-site-12345.com |
这种格式让后续用Python脚本做统计分析变得极其容易：import csv; with open('ProcessRecord.txt') as f: reader = csv.reader(f, delimiter='|')，每一行就是一个字典。我曾用它快速统计出：在500个目标URL中，200个返回200，87个404，12个超时，其余为其他错误，一目了然。
4. 实操全流程与关键配置：从零开始跑通第一个URL
4.1 环境准备：最低要求与避坑清单
你需要准备三样东西：
1.Java Development Kit：JDK 8u202 或更高版本（JDK 11 更佳，因java.net.http.HttpClient在JDK 11引入，但本工具仍用旧API以保证兼容性）；
2.SQL Server：SQL Server 2016 Express（免费）或 Developer（免费）版本，安装时务必勾选“SQL Server Management Studio (SSMS)”组件；
3.Eclipse IDE：推荐2021-09或更新版本，确保内置Maven支持（虽然本项目不用Maven，但新版本Eclipse对Java 11+支持更好）。
提示：不要用MySQL或PostgreSQL替代！因为源码里JDBC连接字符串、驱动类名、SQL语法（如TOP 100）都是为SQL Server定制的。强行替换会导致编译失败或运行时异常。
安装好SQL Server后，打开SSMS，用Windows身份验证连接到localhost\SQLEXPRESS（或你安装时指定的实例名）。然后右键“数据库”→“附加”，在弹出窗口中点击“添加”，浏览到你解压目录下的spider_Data.MDF文件，SSMS会自动识别并填入日志文件spider_Log.LDF。点击“确定”，数据库spider就创建好了。此时，在SSMS的“对象资源管理器”里展开spider→“表”，你应该能看到dbo.SpiderResults表。
4.2 Eclipse导入与编译：零配置启动
解压资源包，找到HaYjKq5CYIAhDnzueOcH-master-7627548575ddbef153e83de7c187a9c8a0a76d8c文件夹（这是GitHub下载的默认命名，实际可能不同），里面就是完整的Eclipse项目。打开Eclipse，菜单栏File→Open Projects from File System...，点击Directory右侧的Directory...按钮，选中该文件夹，确保下方复选框勾选了“Search for nested projects”，然后点击Finish。Eclipse会自动识别.project和.classpath文件，项目图标会变成标准的Java项目样式。右键项目名→Build Path→Configure Build Path...→Libraries选项卡，确认JRE System Library指向你安装的JDK，且Referenced Libraries里有sqljdbc42.jar（SQL Server JDBC驱动）。如果没有，你需要下载mssql-jdbc-8.4.1.jre8.jar（注意版本要匹配JDK），右键项目→Properties→Java Build Path→Libraries→Add External JARs...，添加进去。
注意：sqljdbc42.jar必须放在项目根目录下，且.classpath文件里已写死路径<classpathentry kind="lib" path="sqljdbc42.jar"/>。如果你用的是JDK 11，必须换用mssql-jdbc-8.4.1.jre11.jar，并同步修改.classpath中的路径，否则运行时会报java.lang.NoClassDefFoundError: javax/xml/bind/DatatypeConverter（JAXB在JDK 11中被移除）。
4.3 首次运行与参数配置：修改URL队列与数据库连接
首次运行前，必须做两件事：
1.编辑OutUrls.txt：用记事本打开它，删除所有示例URL，替换成你想抓取的1-3个真实网站，例如：
https://www.baidu.com https://www.github.com https://httpbin.org/html
每行一个，不要有多余空格。
2.配置数据库连接：打开Spider.java，找到private static final String DB_URL = "jdbc:sqlserver://localhost\\SQLEXPRESS;databaseName=spider;integratedSecurity=true;";这一行。如果你的SQL Server实例名不是SQLEXPRESS，请改成你的实例名（如MSSQLSERVER）。如果你用的是SQL Server认证（用户名密码）而非Windows认证，请注释掉这行，取消注释下面的// private static final String DB_URL = "jdbc:sqlserver://localhost\\SQLEXPRESS;databaseName=spider;user=sa;password=your_password;";，并填入正确的用户名密码。
然后，右键Spider.java→Run As→Java Application。控制台会输出类似：
[2024-06-12 15:03:22] Spider started with 2 threads. [2024-06-12 15:03:22] Loading URLs from OutUrls.txt... [2024-06-12 15:03:22] Found 3 URLs to crawl.
稍等几秒，ProcessRecord.txt里就会出现日志，InUrls.txt会新增三行，Errors.txt保持为空（如果一切顺利），而spider数据库的SpiderResults表里，你应该能看到三条新记录。用SSMS执行SELECT * FROM SpiderResults ORDER BY CrawlTime DESC，结果类似：
Id | Url | Title | StatusCode | ResponseTimeMs | CrawlTime 1 | https://www.baidu.com | 百度一下，你就知道 | 200 | 215 | 2024-06-12 15:03:25.123 2 | https://www.github.com | GitHub: Where the world builds software | 200 | 342 | 2024-06-12 15:03:25.456 3 | https://httpbin.org/html | httpbin.org | 200 | 189 | 2024-06-12 15:03:25.789
4.4 日志分析与结果验证：如何确认它真的工作了？
验证是否成功，不能只看控制台“Done”，而要交叉比对四个文件：
-ProcessRecord.txt：确认每条FINISH记录的StatusCode是200，Title字段非空且符合预期；
-InUrls.txt：行数应等于OutUrls.txt初始行数（证明全部URL都被消费）；
-Errors.txt：应为空，或只有你故意放进去的坏URL；
-spider数据库：SELECT COUNT(*) FROM SpiderResults应等于InUrls.txt行数，且SELECT TOP 10 * FROM SpiderResults ORDER BY CrawlTime DESC显示最新抓取的数据。
一个典型的问题排查场景：如果你发现ProcessRecord.txt里全是ERROR，且Errors.txt里写着java.sql.SQLException: Login failed for user 'sa'，那一定是数据库连接字符串里的用户名密码错了。如果ProcessRecord.txt里START之后很久没FINISH，ResponseTimeMs显示几千毫秒，那可能是网络慢或目标网站有反爬，这时你应该降低Spider.java里的CONNECTION_TIMEOUT_MS和READ_TIMEOUT_MS值（比如从5000改成3000），并减少线程数（startCrawling(1)）。
5. 常见问题与独家排查技巧：那些文档里不会写的实战经验
5.1 典型问题速查表
问题现象可能原因排查步骤解决方案
运行时报错java.lang.ClassNotFoundException: com.microsoft.sqlserver.jdbc.SQLServerDriver JDBC驱动未加载或路径错误检查Eclipse中Referenced Libraries是否有sqljdbc42.jar；检查.classpath文件路径是否正确将JAR文件拖入项目根目录，刷新项目，重新配置Build Path
ProcessRecord.txt里StatusCode全是-1 HttpURLConnection未正确连接在fetchPageContent()方法中，在conn.getResponseCode()前加System.out.println("Connecting to: " + url)，确认URL拼写正确检查OutUrls.txt每行末尾是否有不可见的回车符（\r\n），用Notepad++的“显示所有字符”功能查看
抓取的Title是乱码（如“”） HTML页面声明的charset与实际解码不一致在fetchPageContent()中，打印conn.getContentType()和contentCharset变量值修改CharsetDetector.detectCharset()方法，增加对<meta charset="gb2312">等常见中文编码的硬编码识别
多线程下InUrls.txt出现重复URL getNextUrl()方法的synchronized块未覆盖全部临界区在getNextUrl()里，在读取OutUrls.txt后、写入InUrls.txt前，加System.out.println("Thread-" + Thread.currentThread().getId() + " is processing: " + url) 确认synchronized (Spider.class)锁对象是类级别的，且InUrls.txt的写入操作也在同一锁内
SQL Server附加时报错“无法打开物理文件…拒绝访问” Windows权限不足右键spider_Data.MDF文件→属性→安全选项卡，确认当前用户有“完全控制”权限将.MDF和.LDF文件复制到C:\Program Files\Microsoft SQL Server\MSSQL15.SQLEXPRESS\MSSQL\DATA\目录下，再尝试附加
5.2 我踩过的坑与独家技巧
坑一：OutUrls.txt的编码陷阱
Windows记事本默认保存为ANSI编码，而JavaFiles.readAllLines()默认用UTF-8读取，导致URL里含中文时解析失败。解决方案：永远用Notepad++或VS Code打开OutUrls.txt，将其编码转为UTF-8（无BOM），并保存。我在Spider.java的loadUrlsFromFile()方法里加了一行日志：System.out.println("Loaded URL: '" + url + "', length=" + url.length());，当看到length异常大时，立刻意识到是编码问题。
坑二：SQL Server的integratedSecurity=true在某些环境下不生效
尤其是在域环境中，Windows认证有时会失败。我的终极解决方案是：在SQL Server配置管理器里，启用TCP/IP协议，并在SQL Server属性→“连接”选项卡中，勾选“允许远程连接到此服务器”。然后改用IP地址连接：jdbc:sqlserver://127.0.0.1\\SQLEXPRESS;databaseName=spider;integratedSecurity=true;。127.0.0.1比localhost更可靠。
坑三：<title>标签跨行时正则失效
标准正则<title[^>]*>(.*?)</title>默认不匹配换行符。我遇到一个网站，它的HTML是<title>\nMy Site\n</title>，导致提取为空。修复很简单：在HTMLParse.java里，编译正则时加上Pattern.DOTALL标志：Pattern.compile("<title[^>]*>(.*?)</title>", Pattern.CASE_INSENSITIVE \| Pattern.DOTALL)。DOTALL让.能匹配换行符，问题迎刃而解。
独家技巧：用ProcessRecord.txt做性能分析
把ProcessRecord.txt复制到Excel，用“数据”→“分列”功能，按|分割，得到五列。然后对ResponseTimeMs列做排序和条件格式（红-黄-绿），一眼看出哪些URL响应慢。再用透视表统计各StatusCode的分布，就能快速定位是网络问题（大量超时）、目标站问题（大量5xx）还是链接本身问题（大量404）。
6. 扩展可能性与学习进阶路径：这个小工具能带你走多远？
这个工具的价值，远不止于“能用”。它是一块绝佳的“跳板”，帮你从零开始构建对现代Web数据采集系统的完整认知地图。比如，你想给它加上代理支持？只需要在fetchPageContent()里，把HttpURLConnection换成Proxy实例：Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("proxy.example.com", 8080)); HttpURLConnection conn = (HttpURLConnection) url.openConnection(proxy);。想支持HTTPS证书信任？加几行SSLContext初始化代码即可。想把存储后端换成Elasticsearch？把insertTitleToDB()方法整个重写，用RestHighLevelClient发送JSON文档，ISpiderReportable接口完全不用动。
更进一步，你可以把它作为微服务的基础模块：用Spring Boot包装一层REST API，接收JSON格式的URL列表，异步触发爬取，再用WebSocket推送进度。数据库表结构SpiderResults已经预留了扩展字段（Id是自增主键，CrawlTime是精确时间戳），未来加Category（分类）、Priority（优先级）、Tags（标签）都很容易。甚至，你可以用它做“网站健康度监控”：每天定时爬取公司官网，对比Title是否变化、StatusCode是否还是200，一旦异常就发邮件告警——这已经是一个生产级运维脚本的雏形了。
我个人在实际使用中发现，最值得花时间深挖的，其实是CheckLinks.java的域名黑名单机制。把它升级为一个可配置的blacklist.txt文件，再加入基于robots.txt的动态规则解析（用java.net.URL读取/robots.txt，解析User-agent: *下的Disallow规则），这个小工具就具备了基本的合规爬取意识。这不再是“能不能抓”，而是“该不该抓”的工程素养。而这一切，都始于你第一次读懂Spider.java里那个synchronized块的意图。所以，别急着给它加功能，先把它读透、跑通、调烂。当你能闭着眼睛画出OutUrls.txt→Spider→HTMLParse→SQL Server→ProcessRecord.txt的数据流向图时，你就已经站在了专业爬虫工程师的起跑线上。
本文还有配套的精品资源，点击获取
简介：用纯Java写的网页标题提取程序，专门抓取网页HTML里的标签内容，结果自动存进SQL Server数据库。运行时会生成三个文本日志：InUrls.txt记录已爬过的网址，OutUrls.txt保存待爬的链接队列，Errors.txt记下抓取失败的URL和原因，方便排查问题。包里直接附了spider_Data.MDF和spider_Log.LDF两个数据库文件，拖进本地SQL Server就能用，不用自己建库建表。源码结构清楚，包含主爬虫Spider.java、HTML解析器HTMLParse.java、链接检查模块CheckLinks.java，还有ISpiderReportable.java等回调接口实现类，所有.java和.class文件齐全，.classpath和.project也配好了，Eclipse打开项目就能编译运行。整个过程靠Java标准库+JDBC完成，不依赖Spring、Jsoup等第三方框架，适合练手网页抓取逻辑、数据库写入流程和基础URL调度管理。所有运行日志都输出到ProcessRecord.txt里，包括开始时间、当前URL、状态码、标题内容和耗时，调试和复盘都很直观。

本文还有配套的精品资源，点击获取

字段名	类型	允许NULL	说明
Id	INT IDENTITY(1,1) PRIMARY KEY	NOT NULL	自增主键
Url	NVARCHAR(2048)	NOT NULL	完整URL，支持长路径
Title	NVARCHAR(512)	NOT NULL	提取的标题文本，512足够覆盖绝大多数长度</td> </tr>
StatusCode	SMALLINT	NOT NULL	HTTP状态码，如200、404、503
ResponseTimeMs	INT	NOT NULL	从发起请求到收到完整响应的毫秒数
CrawlTime	DATETIME2(3)	NOT NULL	精确到毫秒的抓取时间

问题现象	可能原因	排查步骤	解决方案
运行时报错`java.lang.ClassNotFoundException: com.microsoft.sqlserver.jdbc.SQLServerDriver`	JDBC驱动未加载或路径错误	检查Eclipse中`Referenced Libraries`是否有`sqljdbc42.jar`；检查`.classpath`文件路径是否正确	将JAR文件拖入项目根目录，刷新项目，重新配置Build Path
`ProcessRecord.txt`里`StatusCode`全是-1	`HttpURLConnection`未正确连接	在`fetchPageContent()`方法中，在`conn.getResponseCode()`前加`System.out.println("Connecting to: " + url)`，确认URL拼写正确	检查`OutUrls.txt`每行末尾是否有不可见的回车符（`\r\n`），用Notepad++的“显示所有字符”功能查看
抓取的`Title`是乱码（如“”）	HTML页面声明的charset与实际解码不一致	在`fetchPageContent()`中，打印`conn.getContentType()`和`contentCharset`变量值	修改`CharsetDetector.detectCharset()`方法，增加对`<meta charset="gb2312">`等常见中文编码的硬编码识别
多线程下`InUrls.txt`出现重复URL	`getNextUrl()`方法的`synchronized`块未覆盖全部临界区	在`getNextUrl()`里，在读取`OutUrls.txt`后、写入`InUrls.txt`前，加`System.out.println("Thread-" + Thread.currentThread().getId() + " is processing: " + url)`	确认`synchronized (Spider.class)`锁对象是类级别的，且`InUrls.txt`的写入操作也在同一锁内
SQL Server附加时报错“无法打开物理文件…拒绝访问”	Windows权限不足	右键`spider_Data.MDF`文件→`属性`→`安全`选项卡，确认当前用户有“完全控制”权限	将`.MDF`和`.LDF`文件复制到`C:\Program Files\Microsoft SQL Server\MSSQL15.SQLEXPRESS\MSSQL\DATA\`目录下，再尝试附加