当前位置：首页 > news >正文

Python爬虫入门实战——从环境搭建到数据抓取（新手友好版）

news 2026/6/12 23:04:25

摘要：作为Python新手，想要快速入门爬虫却不知从何下手？本文从零开始，讲解爬虫核心原理、环境搭建、基础实战及反爬基础，搭配可直接运行的代码示例，帮你快速实现第一个爬虫程序，轻松抓取网页数据，适合零基础入门者收藏学习。

关键词：Python爬虫；requests；BeautifulSoup；新手入门；数据抓取

一、前言：为什么入门爬虫首选Python？

在数据驱动的时代，爬虫作为获取网络数据的核心工具，应用场景极为广泛——市场调研、竞品分析、学术数据采集、搜索引擎构建等，都离不开爬虫技术。而Python之所以成为爬虫开发的首选语言，核心原因有三点：一是生态完善，拥有requests、BeautifulSoup等开箱即用的爬虫库，无需重复造轮子；二是语法简洁，入门门槛低，新手也能快速上手；三是灵活性强，既能实现简单的网页抓取，也能应对复杂的动态网页和反爬机制。

本文将避开复杂的理论堆砌，聚焦“实操落地”，从环境搭建到完整爬虫程序实现，每一步都搭配代码和注释，确保新手能跟着操作，快速收获第一个爬虫成果。

二、环境搭建：工欲善其事，必先利其器

爬虫开发的环境搭建非常简单，只需两步：安装Python环境 + 安装核心爬虫库，全程无需复杂配置，新手可直接照搬操作。

2.1 安装Python环境

推荐安装Python 3.8及以上版本（兼容性更好，支持更多新特性），直接从Python官方网站下载对应系统版本（Windows、Mac、Linux均可），安装时勾选“Add Python to PATH”，避免后续配置环境变量的麻烦。

安装完成后，打开终端（Windows cmd、Mac终端），输入以下命令验证是否安装成功：

python --version # 或 python3 --version（Mac/Linux）

若输出类似“Python 3.9.7”的版本信息，说明安装成功。

2.2 安装核心爬虫库

入门阶段，我们只需安装3个核心库，就能满足大部分基础爬虫需求，终端输入以下命令一键安装：

pip install requests beautifulsoup4 lxml

各库的核心作用：

requests：发送HTTP请求，获取网页内容，是爬虫的“核心工具”；
BeautifulSoup：解析HTML网页内容，快速提取所需数据，语法简洁易懂；
lxml：高效的HTML/XML解析器，配合BeautifulSoup使用，提升解析速度。

安装完成后，可通过以下命令验证库是否安装成功：

python -m pip show requests # 验证requests库

三、爬虫核心原理：读懂这4步，才算真正入门

很多新手觉得爬虫复杂，其实核心流程只有4步，就像“模拟浏览器上网”的过程，简单易懂：

发送请求：通过requests库向目标网站服务器发送HTTP请求（类似我们在浏览器输入网址并回车）；
接收响应：服务器接收请求后，返回网页内容（HTML、JSON等格式），这就是我们要解析的数据来源；
解析数据：从服务器返回的内容中，提取我们需要的信息（如新闻标题、商品价格、链接等）；
存储数据：将提取到的数据保存到本地（如TXT、CSV文件），方便后续使用。

记住这4步，无论多么复杂的爬虫，核心逻辑都不会偏离，新手可先牢记这个流程，再逐步深入。

四、实战：实现第一个爬虫程序（抓取百度新闻标题）

接下来，我们结合前面的知识，实现一个简单的爬虫程序——抓取百度新闻首页的所有新闻标题和链接，全程代码可直接复制运行，新手跟着操作即可。

4.1 完整代码（带详细注释）

# 导入核心库 import requests from bs4 import BeautifulSoup # 1. 确定目标网址（百度新闻首页） url = "https://news.baidu.com/" # 2. 模拟浏览器发送请求（避免被网站识别为爬虫） headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36" } # 发送GET请求，获取网页内容 response = requests.get(url, headers=headers) # 3. 解析网页内容，提取新闻标题和链接 # 检查请求是否成功（状态码200表示成功） if response.status_code == 200: # 将网页内容解析为BeautifulSoup对象，方便提取数据 soup = BeautifulSoup(response.text, "lxml") # 查找所有新闻链接（通过CSS选择器定位） news_items = soup.select("a[target='_blank']") # 遍历所有链接，提取标题和链接地址 for item in news_items: # 提取新闻标题（去除前后空格） news_title = item.get_text().strip() # 提取新闻链接 news_link = item.get("href") # 过滤空标题和无效链接，只保留有效新闻 if news_title and news_link and "http" in news_link: print(f"新闻标题：{news_title}") print(f"新闻链接：{news_link}") print("-" * 50) # 分隔线，让输出更清晰 else: print(f"请求失败，状态码：{response.status_code}")

4.2 代码运行说明

1. 复制上述代码，粘贴到PyCharm或VS Code中（新手推荐用PyCharm，调试更方便）；

2. 运行代码，终端会输出百度新闻首页的有效新闻标题和链接；

3. 关键说明：headers中的User-Agent是模拟浏览器信息，避免网站识别为爬虫而拒绝请求，这是最基础的反爬手段，新手一定要记住添加。

4.3 数据存储优化（可选）

如果想将抓取到的新闻数据保存到本地文件（如TXT），可在代码中添加以下内容，替换原有的print输出：

# 打开文件（如果不存在则创建，编码为utf-8避免中文乱码） with open("百度新闻.txt", "w", encoding="utf-8") as f: for item in news_items: news_title = item.get_text().strip() news_link = item.get("href") if news_title and news_link and "http" in news_link: f.write(f"新闻标题：{news_title}\n") f.write(f"新闻链接：{news_link}\n") f.write("-" * 50 + "\n") print("数据已保存到百度新闻.txt文件中")