当前位置：首页 > news >正文

Java 爬虫零基础入门：从 HTTP 到 Jsoup 实战

news 2026/7/26 14:43:43

🎯适合人群：Java 初学者、爬虫新手
⏱️阅读时长：30 分钟
📌你将收获：掌握 HTTP 请求、Jsoup 解析、实战爬取网页数据

📖 目录

一、爬虫基础知识
二、HTTP 请求入门
三、Jsoup 解析 HTML
四、实战案例
五、常见问题
六、面试题

一、爬虫基础知识

1.1 什么是爬虫？

爬虫：自动访问网页并提取数据的程序

应用场景：

数据采集（新闻、电商、招聘）
价格监控
竞品分析
SEO 监控

1.2 爬虫工作流程

① 发送 HTTP 请求 → ② 接收响应（HTML） ③ 解析 HTML → ④ 提取数据 → ⑤ 存储数据

1.3 合法性说明

⚠️ 重要提示：

✅ 爬取公开数据
✅ 遵守 robots.txt
❌ 禁止爬取个人隐私
❌ 禁止商业侵权

二、HTTP 请求入门

2.1 使用 HttpURLConnection

importjava.io.*;importjava.net.HttpURLConnection;importjava.net.URL;publicclassSimpleHttpExample{publicstaticStringsendGet(StringurlStr)throwsIOException{URLurl=newURL(urlStr);HttpURLConnectionconn=(HttpURLConnection)url.openConnection();// 设置请求方法conn.setRequestMethod("GET");conn.setRequestProperty("User-Agent","Mozilla/5.0");// 读取响应BufferedReaderreader=newBufferedReader(newInputStreamReader(conn.getInputStream()));StringBuilderresult=newStringBuilder();Stringline;while((line=reader.readLine())!=null){result.append(line);}reader.close();returnresult.toString();}}

2.2 使用 Apache HttpClient（推荐）

添加依赖：

<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.14</version></dependency>

基础使用：

importorg.apache.http.client.methods.CloseableHttpResponse;importorg.apache.http.client.methods.HttpGet;importorg.apache.http.impl.client.CloseableHttpClient;importorg.apache.http.impl.client.HttpClients;importorg.apache.http.util.EntityUtils;publicclassHttpClientExample{publicstaticStringsendGet(Stringurl)throwsIOException{// 创建 HttpClientCloseableHttpClienthttpClient=HttpClients.createDefault();// 创建 GET 请求HttpGethttpGet=newHttpGet(url);httpGet.setHeader("User-Agent","Mozilla/5.0");// 执行请求CloseableHttpResponseresponse=httpClient.execute(httpGet);// 获取响应内容Stringhtml=EntityUtils.toString(response.getEntity(),"UTF-8");// 关闭资源response.close();httpClient.close();returnhtml;}}

三、Jsoup 解析 HTML

3.1 添加依赖

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.17.2</version></dependency>

3.2 基础使用

importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.select.Elements;publicclassJsoupExample{publicstaticvoidmain(String[]args)throwsIOException{// 方式1：从 URL 加载Documentdoc=Jsoup.connect("https://example.com").get();// 方式2：从 HTML 字符串解析Stringhtml="<html><body><h1>标题</h1></body></html>";Documentdoc2=Jsoup.parse(html);// 获取标题Stringtitle=doc.title();// CSS 选择器Elementslinks=doc.select("a[href]");for(Elementlink:links){Stringurl=link.attr("href");Stringtext=link.text();System.out.println(text+": "+url);}}}

3.3 CSS 选择器

选择器	说明	示例
`tag`	标签选择器	`doc.select("div")`
`.class`	class 选择器	`doc.select(".title")`
`#id`	id 选择器	`doc.select("#content")`
`[attr]`	属性选择器	`doc.select("a[href]")`
`parent > child`	子选择器	`doc.select("div > p")`

四、实战案例

4.1 爬取豆瓣电影 Top250

importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.select.Elements;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;publicclassDoubanSpider{publicstaticvoidmain(String[]args)throwsIOException{List<Movie>movies=newArrayList<>();// 爬取前 3 页for(intpage=0;page<3;page++){Stringurl="https://movie.douban.com/top250?start="+(page*25);Documentdoc=Jsoup.connect(url).userAgent("Mozilla/5.0").timeout(5000).get();// 解析电影列表Elementsitems=doc.select(".item");for(Elementitem:items){Stringtitle=item.select(".title").first().text();Stringrating=item.select(".rating_num").first().text();Stringquote=item.select(".inq").text();Moviemovie=newMovie(title,rating,quote);movies.add(movie);System.out.println(movie);}// 休眠避免被封Thread.sleep(1000);}}}classMovie{privateStringtitle;privateStringrating;privateStringquote;// 构造方法、toString 省略}

4.2 爬取博客文章

publicclassBlogSpider{publicstaticvoidmain(String[]args)throwsIOException{Stringurl="https://blog.csdn.net/xxx/article/list/1";Documentdoc=Jsoup.connect(url).userAgent("Mozilla/5.0").get();// 文章列表Elementsarticles=doc.select(".article-item-box");for(Elementarticle:articles){Stringtitle=article.select("h4 a").text();Stringlink=article.select("h4 a").attr("href");Stringsummary=article.select(".content").text();System.out.println("标题: "+title);System.out.println("链接: "+link);System.out.println("摘要: "+summary);System.out.println("---");}}}

五、常见问题

5.1 中文乱码

// 设置编码Stringhtml=EntityUtils.toString(response.getEntity(),"UTF-8");// Jsoup 设置编码Documentdoc=Jsoup.parse(html,"UTF-8");

5.2 请求被拦截

// 设置 User-AgenthttpGet.setHeader("User-Agent","Mozilla/5.0");// 添加更多请求头httpGet.setHeader("Referer","https://www.google.com");httpGet.setHeader("Accept-Language","zh-CN,zh;q=0.9");

5.3 超时设置

// Jsoup 超时Documentdoc=Jsoup.connect(url).timeout(10000).get();// HttpClient 超时RequestConfigconfig=RequestConfig.custom().setConnectTimeout(5000).setSocketTimeout(10000).build();httpGet.setConfig(config);