当前位置：首页 > news >正文

零基础必学！Python爬虫实战：爬取天气预报，自动保存近7天天气+温度+风力

news 2026/3/27 4:32:07

最近公司行政部的小周找我吐槽：“每天早上要打开3个天气网站，抄全公司3个办公区的近7天天气、温度、风力，月底还要整理成Excel，眼睛都花了！”

我笑着说：“这事儿交给Python啊，1小时写个脚本，一键搞定，以后每天点一下就行。”

今天就把这个保姆级的实战教程分享给零基础的你——不用懂复杂的算法，不用写几百行代码，跟着步骤走，你也能做出自己的第一个实用爬虫！

一、准备工作：先把家伙事儿备齐（零基础也能10分钟搞定）

1. 安装Python

这是第一步，也是最容易卡的一步，别慌，跟着做：

打开Python官网：https://www.python.org/downloads/
点击黄色的“Download Python 3.x.x”按钮（3.x.x是最新稳定版，比如3.13.2，直接下就行）
关键！关键！关键！安装时，一定要勾选最下面的“Add Python 3.x.x to PATH”，不然后面用不了pip命令！
点击“Install Now”，等待安装完成，出现“Setup was successful”就可以了。

2. 安装VS Code（免费好用的编辑器）

打开VS Code官网：https://code.visualstudio.com/
点击蓝色的“Download for Windows”（Mac/Linux选对应的）
一路“Next”安装，安装完成后打开VS Code。
点击左侧的“扩展”图标（四个小方块），搜索“Python”，安装微软官方的第一个插件（图标是蓝色的Python）。

3. 安装必要的Python库（用国内镜像源，下载速度快10倍）

打开VS Code的“终端”（快捷键Ctrl + ~，或者点击顶部菜单“终端”→“新建终端”），依次输入下面的命令，每输完一行按回车：

# 1. 安装requests库：用来向天气网站发送请求，获取网页内容pipinstallrequests -i https://pypi.tuna.tsinghua.edu.cn/simple# 2. 安装BeautifulSoup4库：用来解析网页内容，提取我们需要的天气数据pipinstallbeautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple# 3. 安装pandas库：用来整理数据，生成Excel表格pipinstallpandas -i https://pypi.tuna.tsinghua.edu.cn/simple# 4. 安装openpyxl库：pandas生成Excel需要用到它pipinstallopenpyxl -i https://pypi.tuna.tsinghua.edu.cn/simple

如果终端显示“Successfully installed xxx”，就说明安装成功了！

二、选一个好爬的天气网站（避开反爬太严的）

新手别碰百度、墨迹天气这种反爬很严的网站，我推荐用天气后报：http://www.weather.com.cn/

优点：反爬几乎没有，网页结构简单，数据清晰，不用登录就能看。
缺点：界面有点旧，但对我们爬虫来说，旧才好！

三、分析网页结构（这是爬虫的核心，很简单）

1. 找到你要爬的城市的天气页面

比如我要爬北京的近7天天气，打开天气后报，搜索“北京”，进入北京的天气页面，复制浏览器地址栏的URL：

http://www.weather.com.cn/weather/101010100.shtml

注意：每个城市都有一个唯一的ID，北京是101010100，上海是101020100，你可以自己搜索城市，复制URL里的ID。

2. 用浏览器的“开发者工具”分析网页

这是新手必须学会的技能，很简单：

在天气页面空白处，右键点击，选择“检查”（或者按快捷键F12）。
点击开发者工具左上角的“小箭头”图标（或者按快捷键Ctrl + Shift + C）。
用小箭头点击网页上的近7天的日期（比如“今天 02月25日”），开发者工具会自动定位到对应的HTML代码。
继续用小箭头点击天气状况（比如“晴”）、温度（比如“-2℃/10℃”）、风力（比如“东北风3-4级”），你会发现：
- 近7天的所有天气数据，都在一个<ul class="t clearfix">标签里；
- 每一天的天气数据，都在这个<ul>标签下的一个<li>标签里；
- 日期在<h1>标签里；
- 天气状况在<p class="wea">标签里；
- 温度在<p class="tem">标签里；
- 风力在<p class="win">标签里。

完美！结构非常清晰，我们可以用BeautifulSoup4轻松提取这些数据！

四、写代码！（完整可运行，附详细注释）

在VS Code里新建一个Python文件，命名为weather_spider.py，把下面的代码复制进去，我加了超级详细的注释，零基础也能看懂：

# 1. 导入我们需要的库importrequestsfrombs4importBeautifulSoupimportpandasaspdfromdatetimeimportdatetimedefget_weather(city_id,city_name):""" 爬取指定城市的近7天天气数据 :param city_id: 城市的唯一ID（从天气后报URL里复制） :param city_name: 城市名称（用来生成Excel文件名） """# 2. 构造天气页面的URLurl=f"http://www.weather.com.cn/weather/{city_id}.shtml"# 3. 设置请求头（伪装成浏览器，避免被反爬）# 新手可以直接复制这个请求头，不用改headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"}try:# 4. 向天气网站发送GET请求，获取网页内容response=requests.get(url,headers=headers,timeout=10)# 设置网页编码为UTF-8（避免中文乱码）response.encoding="utf-8"# 5. 检查请求是否成功（状态码200表示成功）ifresponse.status_code!=200:print(f"请求失败！状态码：{response.status_code}")returnNone# 6. 用BeautifulSoup4解析网页内容soup=BeautifulSoup(response.text,"html.parser")# 7. 找到包含近7天天气数据的<ul>标签weather_list=soup.find("ul",class_="t clearfix")ifnotweather_list:print("未找到天气数据！")returnNone# 8. 遍历<ul>标签下的所有<li>标签（每一天的天气）weather_data=[]forliinweather_list.find_all("li"):# 提取日期date_tag=li.find("h1")date=date_tag.text.strip()ifdate_tagelse"未知日期"# 提取天气状况wea_tag=li.find("p",class_="wea")weather=wea_tag.text.strip()ifwea_tagelse"未知天气"# 提取温度tem_tag=li.find("p",class_="tem")iftem_tag:# 温度标签里可能有最高温（<span>）和最低温（<i>）high_temp=tem_tag.find("span").text.strip()iftem_tag.find("span")else"未知"low_temp=tem_tag.find("i").text.strip()iftem_tag.find("i")else"未知"temperature=f"{low_temp}/{high_temp}"else:temperature="未知温度"# 提取风力win_tag=li.find("p",class_="win")ifwin_tag:# 风力标签里有风向（<i>）和风力等级（<span>）wind_dir=win_tag.find("i").text.strip()ifwin_tag.find("i")else"未知"wind_level=win_tag.find("span").text.strip()ifwin_tag.find("span")else"未知"wind=f"{wind_dir}{wind_level}"else:wind="未知风力"# 把提取到的数据添加到列表里weather_data.append({"日期":date,"天气状况":weather,"温度":temperature,"风力":wind})# 9. 用pandas把列表转换成DataFrame（方便生成Excel）df=pd.DataFrame(weather_data)# 10. 生成Excel文件名（包含城市名和当前日期，避免覆盖）current_date=datetime.now().strftime("%Y%m%d")excel_filename=f"{city_name}_近7天天气_{current_date}.xlsx"# 11. 把DataFrame保存到Excel文件里df.to_excel(excel_filename,index=False,engine="openpyxl")print(f"✅ 爬取成功！数据已保存到：{excel_filename}")returndfexceptExceptionase:# 捕获所有异常，打印错误信息print(f"❌ 爬取失败！错误信息：{e}")returnNoneif__name__=="__main__":# 12. 在这里修改你要爬的城市ID和城市名称# 北京：101010100，上海：101020100，广州：101280101，深圳：101280601# 你可以自己搜索城市，复制URL里的IDcity_id="101010100"city_name="北京"# 13. 调用爬取函数get_weather(city_id,city_name)

五、运行代码！（一键搞定）

在VS Code的终端里，输入下面的命令，按回车：

python weather_spider.py

如果终端显示“✅ 爬取成功！数据已保存到：北京_近7天天气_20260225.xlsx”，就说明成功了！

打开VS Code左侧的“资源管理器”（第一个图标），你会看到生成的Excel文件，双击打开，就能看到近7天的天气数据了！

六、新手常见问题解答（我帮你踩过的坑）

1. 终端提示“‘python’ 不是内部或外部命令”

原因：安装Python时没有勾选“Add Python 3.x.x to PATH”。
解决方法：

卸载Python，重新安装，一定要勾选“Add Python 3.x.x to PATH”；
或者手动添加Python到环境变量（新手建议重新安装）。

2. 终端提示“ModuleNotFoundError: No module named ‘xxx’”

原因：没有安装对应的库，或者安装库时用了错误的镜像源。
解决方法：

重新用清华镜像源安装对应的库（比如pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple）；
检查VS Code的Python解释器是否正确（点击VS Code右下角的Python版本号，选择你安装的Python 3.x.x）。