当前位置：首页 > news >正文

招聘数据一键抓取分析包：智联/拉勾/51job多平台Python爬虫+词云可视化

news 2026/6/8 19:47:38

本文还有配套的精品资源，点击获取

简介：直接运行就能采集主流招聘网站岗位信息的Python工具集合，支持智联招聘、拉勾网、51job三大平台，内置16个可执行爬虫脚本（如zhilianspider.py、lagouspider.py、jobspider.py），自动提取职位名称、薪资区间、工作城市、公司名称、经验要求等结构化字段。配套数据存储模块（savedata.py）支持MySQL和Excel双输出，城市编码映射（citynum.py）解决地域识别问题，配置文件（config.py）统一管理账号、关键词、代理等参数。分析模块（analysis.py）生成中文词云图（含3款中文字体：兰亭黑GBK.TTF等），附带wordcloud.png等4张可视化效果图及深圳、武汉等地2017年真实招聘Excel样本数据。所有脚本兼容Python 3.5，集成Scrapy框架（含scrapy.cfg），提供requirements.txt依赖清单、.gitignore版本控制配置和readme.txt使用说明，适合做岗位分布热力图、技能关键词频次统计、行业薪资对比等基础人力数据分析。

1. 项目概述：这不是一个“爬虫工具包”，而是一套面向人力分析场景的轻量级数据采集工作流

你有没有遇到过这样的情况：HRBP要快速摸清深圳AI算法岗的薪资带宽，招聘经理想对比武汉和杭州Java开发岗的技能要求差异，高校就业指导中心需要统计近半年“数据分析”岗位在长三角地区的地域分布热度——但手头既没有采购商业数据库的预算，又没时间从零写一套能稳定跑通三个主流招聘网站的采集系统？我试过用Excel手动复制粘贴拉勾网的200条岗位，花了3小时，结果发现第178条的薪资写的是“15k-30k·16薪”，而第192条是“面议”，根本没法直接做数值统计。后来我自己搭了一套东西，不是为了炫技，而是为了解决“今天下午就要给业务部门出一份初步分析”的真实压力。

这个“招聘数据一键抓取分析包”，本质上是一套以人力分析需求为起点倒推设计的数据采集工作流。它不追求高并发、分布式或反反爬对抗的极致，而是聚焦在“能稳定跑通、字段可对齐、结果可分析”这三个最实际的环节上。核心关键词——招聘爬虫、Python采集、词云分析、智联拉勾、51job抓取——不是技术标签，而是使用场景的说明书：你要分析招聘市场，就得先拿到结构化数据；要拿到结构化数据，就得处理不同平台的HTML结构差异；要让分析结果看得懂，就得解决中文词云的字体渲染问题。整套包里16个主脚本（zhilianspider.py、lagouspider.py、jobspider.py等）不是堆砌数量，而是对应着16种真实采集组合：比如“深圳+Python开发+3年经验”“北京+产品经理+应届生”“上海+测试工程师+自动化方向”。每个脚本都预置了城市编码映射（citynum.py）、关键词分词规则、薪资正则提取逻辑，你改一行config.py里的city_id和keyword，就能立刻切换采集目标。配套的3个中文字体文件（兰亭黑GBK.TTF、simhei.ttf、msyh.ttc）也不是随便放的——我实测过，用默认的DejaVuSans.ttf生成中文词云，全是方块；换兰亭黑后，连“Python”三个字的英文部分都能保持清晰锐利，这是人力分析报告里必须守住的视觉底线。它不承诺“全自动无人值守”，但能保证“你按readme.txt操作完，30分钟内看到第一张wordcloud.png”。

2. 整体架构与设计逻辑：为什么是Scrapy+模块化，而不是Requests+单脚本？

2.1 为什么选Scrapy框架而非Requests裸写？

很多人一上来就想用Requests+BeautifulSoup写爬虫，简单直接。但当你真正面对智联、拉勾、51job这三家时，会发现裸写很快会陷入“重复造轮子”的泥潭。举个具体例子：拉勾网的列表页返回的是JSON，但详情页是HTML；智联的列表页是HTML，但翻页参数藏在JavaScript里；51job的职位详情页URL里带加密参数，且同一岗位在不同城市展示的URL结构完全不同。如果用Requests，你得为每个平台单独写请求构造、响应解析、异常重试、Cookie管理——光是处理“页面加载超时后自动重试3次并记录失败URL”这一项，每个平台就得写20行代码，三平台就是60行，而且逻辑高度重复。

Scrapy的价值，在于它把这类通用能力抽象成了内置组件。它的Downloader Middleware天然支持代理IP轮换、User-Agent随机化、请求延迟控制；Spider类强制你分离start_requests()、parse()、parse_detail()三个阶段，逼你把“获取列表→提取详情页URL→解析详情页内容”这个流程拆解清楚；Item Pipeline则让你能把“清洗薪资字符串→标准化城市名→补全公司规模字段”这些后处理逻辑统一管理。我在封装lagouspider.py时，只写了不到150行核心代码，其余80%的工作由Scrapy的HttpCompressionMiddleware、RetryMiddleware、CookiesMiddleware自动完成。更重要的是，Scrapy的settings.py可以集中配置DOWNLOAD_DELAY=2、CONCURRENT_REQUESTS=1、ROBOTSTXT_OBEY=False，这些参数对三个平台都生效，不用在每个脚本里重复声明。这不是技术选型的“高大上”，而是降低维护成本的务实选择——当某天拉勾网更新了反爬策略，你只需要调整一个Downloader Middleware，而不是修改16个独立脚本。

2.2 模块化设计的四个关键层：如何让16个脚本不变成16座孤岛？

整个包的目录结构看似松散，实则暗含四层职责分离：

采集层（spider目录）：zhilian/、lagou/、51job/三个子目录，每个目录下有对应的spider.py和items.py。这里的关键设计是：所有Spider类都继承自一个BaseSpider（定义在jobsearch/spiders/base_spider.py），它统一实现了get_city_code()方法（调用citynum.py）、parse_salary()方法（正则提取“15k-30k”或“面议”）、clean_company_name()方法（去除“【急聘】”“【直招】”等干扰前缀）。这样，lagouspider.py里只需写yield scrapy.Request(url, callback=self.parse_detail)，而salary解析逻辑完全复用基类。
存储层（savedata.py）：这是整个包里我重构次数最多的模块。它不直接写MySQL或Excel，而是提供一个save_to_db()和save_to_excel()两个接口，内部根据config.py中的OUTPUT_TYPE自动路由。更关键的是，它内置了字段映射表：比如拉勾网的”companySize”字段映射为标准字段”company_scale”，智联的”workingExp”映射为”experience_req”，51job的”salary”映射为”salary_raw”。这样，analysis.py分析时永远面对的是统一字段名，不用写if platform == ‘lagou’这种判断。
配置层（config.py）：这里藏着最容易被忽略的设计智慧。它不只是存账号密码，而是分三级配置：
GLOBAL_CONFIG：控制全局行为，如ENABLE_PROXY（是否启用代理）、MAX_PAGES（最多采集多少页）、SLEEP_BETWEEN_PAGES（页间休眠秒数）；
PLATFORM_CONFIG：按平台定制，如'zhilian': {'login_required': True, 'captcha_mode': 'manual'}，明确告知用户智联需要手动输入验证码；
JOB_CONFIG：任务级配置，如{'keywords': ['Python', '数据分析'], 'cities': ['shenzhen', 'wuhan'], 'experience': ['3-5年']}。这种分层让一个config.py能同时驱动16个脚本，而不是每个脚本配一个conf.ini。
分析层（analysis.py）：它的核心不是画图，而是数据准备。它先调用savedata.py读取Excel，然后执行三步清洗：①用jieba分词+停用词表（docs/stopwords.txt）过滤“招聘”“急聘”“诚聘”等无意义词；②对“Python”“Java”“SQL”等技能词做同义词合并（如“MySQL”“mysql”“Mysql”统一为“MySQL”）；③按城市分组统计词频。最后才调用wordcloud生成图片。这意味着，如果你只想看深圳的词云，就改config.py里的cities = [‘shenzhen’]，analysis.py会自动过滤其他城市数据——它不是“分析工具”，而是“分析流水线的终点站”。

提示：不要试图直接运行zhilianspider.py。Scrapy要求在项目根目录执行scrapy crawl zhilian，否则会报错“Cannot import module”。readme.txt里写的“cd zhilian && python zhilianspider.py”是误导，那是旧版脚本的用法，新版已全部迁移到Scrapy项目结构。

2.3 城市编码映射（citynum.py）为什么不能用拼音或ID硬编码？

初学者常犯的错误，是把城市写成'shenzhen': 765这样的字典。但问题在于：拉勾网的城市ID是765，智联是0010，51job是0400，同一个深圳在三个平台ID完全不同。如果在config.py里写死ID，每次换平台就得改一遍配置，极易出错。

citynum.py的解决方案是建立三层映射：

# 第一层：标准城市名（中文） CITY_STANDARD = { '北京': 'beijing', '上海': 'shanghai', '深圳': 'shenzhen', '武汉': 'wuhan' } # 第二层：各平台ID映射表 PLATFORM_CITY_IDS = { 'zhilian': {'shenzhen': '0010', 'wuhan': '0020'}, 'lagou': {'shenzhen': '765', 'wuhan': '255'}, '51job': {'shenzhen': '0400', 'wuhan': '0200'} } # 第三层：调用时自动路由 def get_city_id(platform, city_en): return PLATFORM_CITY_IDS.get(platform, {}).get(city_en, '')

这样，在lagouspider.py里调用get_city_id('lagou', 'shenzhen')返回765，在zhilianspider.py里调用get_city_id('zhilian', 'shenzhen')返回0010。你只需要在config.py里统一写cities = ['shenzhen', 'wuhan']，所有爬虫自动适配各自平台的ID规则。这个设计让我在2017年批量采集12个城市时，避免了因ID写错导致的“深圳数据全跑到杭州去”的事故。

3. 核心模块深度解析：从爬取到可视化的完整链路拆解

3.1 爬虫脚本（zhilianspider.py / lagouspider.py）的关键实现细节

以lagouspider.py为例，它的核心逻辑远不止“发请求→取数据→存数据库”这么简单。我来拆解三个真正决定成败的细节：

第一，列表页的动态加载处理
拉勾网的职位列表是Ajax加载的，URL形如https://www.lagou.com/jobs/positionAjax.json?city=深圳&kd=Python&pn=1。但直接请求这个URL会返回403，因为缺少Headers里的X-Requested-With: XMLHttpRequest和Referer: https://www.lagou.com/jobs/list_Python。更麻烦的是，它的cookies里有个user_trace_token，有效期2小时，过期后所有请求都会跳转到登录页。我的解决方案是在start_requests()里先GET一次首页，Scrapy自动保存cookies，再带着这个cookies发Ajax请求。代码片段如下：

def start_requests(self): # 先访问首页，获取初始cookies yield scrapy.Request( url='https://www.lagou.com', callback=self.after_homepage, dont_filter=True ) def after_homepage(self, response): # 再发Ajax请求，复用上一步的cookies for keyword in self.keywords: for city in self.cities: url = f'https://www.lagou.com/jobs/positionAjax.json?city={city}&kd={keyword}&pn=1' yield scrapy.Request( url=url, headers={'X-Requested-With': 'XMLHttpRequest', 'Referer': f'https://www.lagou.com/jobs/list_{keyword}'}, callback=self.parse_list, meta={'city': city, 'keyword': keyword, 'page': 1} )

这段代码确保了cookies的连续性，比网上流传的“手动构造cookies字符串”方案稳定得多。

第二，详情页URL的可靠提取
拉勾网列表页返回的JSON里，content.positionResult.result数组中的每条记录都有positionId，但详情页URL不是简单的https://www.lagou.com/jobs/{positionId}.html，而是需要拼接https://www.lagou.com/jobs/{positionId}_{{random_str}}.html，其中{random_str}是服务端生成的随机字符串，无法预测。正确的做法是：从列表页JSON中提取positionId后，再发一次https://www.lagou.com/jobs/{positionId}.html的HEAD请求，服务端会302重定向到真实URL，Scrapy的RedirectMiddleware会自动跟进并把最终URL传给parse_detail()。这样既避免了URL伪造，又保证了链接有效性。

第三，薪资字段的鲁棒性解析
拉勾网的薪资字段叫salary，值为“15k-30k”，但智联叫providesalary_text，值为“1.5-3万/月”，51job叫jobwelf，但实际薪资藏在sal字段里。savedata.py里的parse_salary()方法用了一个统一正则：r'(\d+\.?\d*)[kK]?[-~到至](\d+\.?\d*)[kK]?'，能匹配“15-30k”“1.5-3万”“8k-15k”三种格式。对于“面议”“年薪制”“月薪面议”等文本，则统一标记为salary_min=0, salary_max=0, salary_type='negotiable'，后续analysis.py统计时会自动过滤这类记录，避免污染平均值计算。

注意：拉勾网的反爬机制在2017年后升级了，现在需要在Headers里添加X-Anit-Forge-Token和X-Anit-Forge-Code，这两个值从首页HTML的<meta name="csrf-token" content="xxx">里提取。原包里的lagouspider.py未处理此逻辑，需自行在after_homepage()里用response.css(‘meta[name=”csrf-token”]::attr(content)’).get()提取并存入self.csrf_token。

3.2 数据存储模块（savedata.py）的双输出设计原理

savedata.py的核心价值，在于它解决了“采集结果怎么用”的最后一公里问题。很多爬虫脚本把数据print出来就完了，但人力分析需要的是可导入Excel的表格、可连接MySQL的结构化数据。它的双输出不是简单地“既写Excel又写DB”，而是基于不同使用场景的分工：

Excel输出（save_to_excel）：专为“快速查看”和“临时分析”设计。它生成的Excel有四个Sheet：
raw_data：原始采集字段，包含platform、url、title、salary_raw、city、company_name等20+列；
cleaned_data：清洗后字段，salary_min/salary_max已转为数字，experience_req标准化为“应届毕业生”“1-3年”“3-5年”；
city_stats：按城市分组的统计摘要，如“深圳共采集327条，平均薪资18.2k，Python出现频次142次”；
keyword_freq：所有职位标题和描述中，技能词（Python、Java、SQL等）的TF-IDF加权频次排名。
MySQL输出（save_to_db）：面向“长期积累”和“多源对比”。它创建的表结构是宽表设计：
sql CREATE TABLE job_data ( id BIGINT PRIMARY KEY AUTO_INCREMENT, platform VARCHAR(20), -- 来源平台 title VARCHAR(200), -- 职位名称 salary_min DECIMAL(8,2), -- 最低月薪（单位：k） salary_max DECIMAL(8,2), -- 最高月薪（单位：k） city VARCHAR(50), -- 标准化城市名（深圳/北京） company_name VARCHAR(100), experience_req ENUM('应届','1-3年','3-5年','5年以上','不限'), skills TEXT, -- JSON数组，如["Python","MySQL","Linux"] crawl_time DATETIME DEFAULT CURRENT_TIMESTAMP );
关键设计点在于skills字段存JSON而非逗号分隔字符串。这样后续用MySQL 5.7+的JSON_CONTAINS函数，就能直接查“哪些岗位要求Python且不要求Oracle”：WHERE JSON_CONTAINS(skills, '"Python"') AND NOT JSON_CONTAINS(skills, '"Oracle"')。这比用LIKE ‘%Python%’高效得多，也避免了“Python工程师”误匹配“高级Python工程师”的问题。

3.3 词云可视化（analysis.py + 字体文件）的实战避坑指南

analysis.py生成词云的过程，表面看只是几行代码：

from wordcloud import WordCloud wc = WordCloud( font_path='兰亭黑GBK.TTF', width=1200, height=800, background_color='white', max_words=200 ) wc.generate_from_frequencies(word_freq_dict) wc.to_file('wordcloud.png')

但实际踩过的坑，比代码行数多十倍：

坑一：字体路径的绝对/相对陷阱
原包里写的font_path='兰亭黑GBK.TTF'，在Windows下可能报错“找不到字体文件”。因为Python的当前工作目录（cwd）不一定是项目根目录。正确做法是用os.path.join(os.path.dirname(__file__), 'fonts', '兰亭黑GBK.TTF')，把字体文件统一放在fonts/子目录下，并在requirements.txt里声明wordcloud>=1.8.1（旧版本不支持中文路径）。

坑二：词频数据的清洗质量决定词云价值
我最初直接用职位标题做词云，结果满屏都是“招聘”“急聘”“诚聘”“高薪”“五险一金”。后来在analysis.py里加入了三重过滤：
1.停用词过滤：加载docs/stopwords.txt（含189个招聘领域停用词）；
2.技能词强化：对预设技能库（Python、Java、TensorFlow等）的词频乘以权重3；
3.长度过滤：剔除单字词（“工”“程”“师”）和超长词（>8个字符），保留“机器学习”“深度学习”“自然语言处理”等有效术语。

坑三：词云图片的业务适配性
原包附带的wordcloud_penguin.png用了企鹅轮廓，好看但不专业。人力分析报告里，词云应该服务于结论。比如分析“深圳AI岗位”，我把词云形状设为深圳地图SVG，用mask参数加载；分析“校招岗位”，则用学位帽轮廓。这需要额外安装PIL和numpy，并在analysis.py里加入：

from PIL import Image import numpy as np mask = np.array(Image.open('shenzhen_map.png')) wc = WordCloud(mask=mask, contour_width=3, contour_color='steelblue')

实操心得：别迷信“高频词=重要技能”。我在分析武汉Java岗时，发现“Spring”出现频次排第3，但“微服务”排第12。深入看数据才发现，“Spring”大量出现在“Spring Boot”“Spring Cloud”组合词里，而单独提“微服务”的岗位，往往要求Docker、K8s等配套技能。所以analysis.py里增加了n-gram分析（提取2-3个词的组合），这才是真实技能栈的反映。

4. 实操全流程：从环境搭建到生成第一张词云图

4.1 环境准备与依赖安装（Python 3.5兼容性实测）

虽然包声明支持Python 3.5，但实际安装时会遇到几个关键兼容性问题，必须手动处理：

第一步：创建隔离环境
不要用系统Python，用python3.5 -m venv venv_job创建虚拟环境。Python 3.5的venv模块不支持--system-site-packages，所以必须干净起步。

第二步：升级pip并安装基础依赖

source venv_job/bin/activate # Linux/Mac # 或 venv_job\Scripts\activate.bat # Windows pip install --upgrade pip pip install -r requirements.txt

requirements.txt里最关键的三行是：

Scrapy==1.5.1 # Python 3.5仅支持Scrapy<=1.5.x，1.6+需3.6+ PyMySQL==0.9.3 # MySQL驱动，3.5兼容性最好 wordcloud==1.5.0 # 1.8+需3.6，1.5.0是3.5最后支持版本

特别注意：如果pip install Scrapy报错“twisted not found”，需先pip install twisted==17.5.0（Twisted 18.0+不支持3.5）。

第三步：验证字体文件权限
把兰亭黑GBK.TTF等三个字体文件放到fonts/目录后，在Linux下执行：

chmod 644 fonts/*.TTF

否则wordcloud会因权限不足无法读取字体，静默失败。

4.2 配置与运行：以“深圳Python岗位”为例的完整步骤

假设你要采集深圳的Python开发岗位，以下是精确到每一行命令的操作流程：

步骤1：修改config.py
打开config.py，定位到JOB_CONFIG部分：

JOB_CONFIG = { 'keywords': ['Python开发', 'Python工程师'], 'cities': ['shenzhen'], 'experience': ['3-5年', '5-10年'], 'max_pages': 5 }

注意：cities必须用英文名（shenzhen），不能写中文“深圳”，否则citynum.py无法映射。

步骤2：初始化MySQL（如需DB输出）
如果要用MySQL，先创建数据库：

CREATE DATABASE job_data DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

然后在config.py里填写DB配置：

DB_CONFIG = { 'host': 'localhost', 'port': 3306, 'user': 'root', 'password': 'your_password', 'database': 'job_data' }

步骤3：运行拉勾网爬虫
在项目根目录执行：

scrapy crawl lagou -s LOG_FILE=logs/lagou.log

-s LOG_FILE参数会把日志输出到logs/目录，方便排查。正常运行时，你会看到类似输出：

2017-08-15 14:22:33 [scrapy.core.engine] INFO: Spider opened 2017-08-15 14:22:33 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lagou.com> 2017-08-15 14:22:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lagou.com/jobs/positionAjax.json?city=深圳&kd=Python开发&pn=1> 2017-08-15 14:22:37 [jobsearch.pipelines] INFO: Saved 20 items to Excel

步骤4：生成词云
爬虫结束后，执行：

python analysis.py

它会自动：
- 读取output/shenzhen_python_20170815.xlsx（自动按日期命名）；
- 清洗数据，生成词频字典；
- 调用wordcloud生成wordcloud_shenzhen_python.png；
- 同时输出console报告：
【深圳Python岗位词云分析】共采集有效岗位：187条技能词TOP5：Python(187)、MySQL(142)、Linux(128)、Django(95)、Flask(87) 薪资区间：15.2k - 32.6k（中位数：22.8k）

4.3 样本数据（深圳、武汉Excel）的正确使用方式

包里附带的2017年深圳、武汉Excel样本（如shenzhen_2017.xlsx），不是“演示数据”，而是真实采集失败的调试快照。它们的价值在于：

字段结构参考：打开shenzhen_2017.xlsx，看raw_dataSheet的列名，就知道你的爬虫应该提取哪些字段；
异常案例库：里面包含多条“薪资：面议”“经验：不限”“公司：某某科技（已注销）”的记录，可用来测试savedata.py的清洗逻辑；
分析基准线：用analysis.py分析这份2017年数据，再对比你新采集的2024年数据，就能看出“Docker”词频从2017年的第47位升到2024年的第3位——这才是人力趋势分析的真价值。

注意：样本数据里的城市名是中文“深圳”，而你的config.py必须写英文“shenzhen”。这是故意为之的设计：样本数据是历史产物，而config.py是未来操作规范，两者分离避免混淆。

5. 常见问题与排查技巧实录：那些文档里不会写的血泪教训

5.1 爬虫运行常见故障速查表

问题现象	可能原因	排查命令	解决方案
`scrapy crawl zhilian`报错`ImportError: No module named 'scrapy'`	虚拟环境未激活或Scrapy未安装	`which scrapy`、`pip list \\| grep Scrapy`	激活venv后重新`pip install Scrapy==1.5.1`
拉勾网爬虫卡在`Crawled (200)`但无数据入库	Headers缺失`X-Requested-With`或`Referer`	在lagouspider.py的parse_list()里加`self.logger.info(response.headers)`	检查Headers是否包含`X-Requested-With: XMLHttpRequest`，补全Referer
智联爬虫频繁跳转到登录页	cookies过期或缺少`JSESSIONID`	`scrapy shell 'https://sou.zhaopin.com'`后执行`response.headers.get('Set-Cookie')`	在start_requests()里先GET智联首页，让Scrapy自动管理cookies
词云图全是方块字	字体路径错误或字体文件损坏	`python -c "from PIL import ImageFont; print(ImageFont.truetype('fonts/兰亭黑GBK.TTF', 14))"`	用`fc-list \\| grep -i simhei`检查系统字体，或换用`simhei.ttf`
MySQL插入报错`Incorrect string value: '\xF0\x9F\x92\xBB'`	MySQL字符集非utf8mb4	`mysql -e "SHOW VARIABLES LIKE 'character_set%';"`	执行`ALTER DATABASE job_data CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;`

5.2 三个必须知道的“隐藏技巧”

技巧一：用scrapy parse命令调试单个页面
不用每次都跑完整爬虫。比如你想测试lagouspider.py的parse_detail()逻辑，可以：

scrapy parse --spider=lagou -c parse_detail "https://www.lagou.com/jobs/12345678.html"

它会直接下载该URL，调用parse_detail()，并打印yield的Item字段。这比改代码→跑爬虫→看日志快10倍。

技巧二：Excel输出自动分Sheet的秘诀
savedata.py的save_to_excel()方法里，有段关键代码：

with pd.ExcelWriter(filename, engine='openpyxl') as writer: df_raw.to_excel(writer, sheet_name='raw_data', index=False) df_clean.to_excel(writer, sheet_name='cleaned_data', index=False) # ...其他Sheet

engine='openpyxl'是必须的，因为xlsxwriter不支持多Sheet写入。如果你用pip install xlsxwriter，Excel只会保留最后一个Sheet。

技巧三：快速生成城市热力图的捷径
analysis.py默认只生成词云，但你可以用它输出的city_statsSheet，一分钟做出热力图：
1. 打开output/city_stats_20170815.xlsx；
2. 复制city和avg_salary两列到新Excel；
3. 用Excel的“条件格式→色阶”，选择红-黄-绿渐变；
4. 立刻得到深圳（22.8k）红色、武汉（15.3k）黄色、杭州（18.6k）橙色的直观对比。

5.3 2017年样本数据背后的真相：为什么它不可直接用于2024年分析？

很多人直接拿shenzhen_2017.xlsx做分析，得出“深圳Python岗平均薪资18.2k”的结论，却忽略了三个致命偏差：

时间偏差：2017年是移动互联网爆发末期，AI岗位稀缺，Python多用于运维脚本；2024年大模型驱动，Python成为AI工程师标配，薪资结构已重构；
平台偏差：样本数据主要来自拉勾网，而2024年BOSS直聘、脉脉的AI岗位占比超40%，拉勾网已转向中低端岗位；
技能偏差：2017年样本里“TensorFlow”出现12次，“PyTorch”仅3次；2024年反过来了，且新增了“LangChain”“LlamaIndex”等新词。

所以，样本数据的正确用法是：作为你的爬虫是否正常工作的黄金标准。当你新采集的深圳数据里，“Python”词频是187次，而2017年样本是142次，说明你的采集逻辑覆盖更全；如果“Docker”在新数据里出现频次低于样本，那就要检查是不是漏抓了运维类岗位。

6. 进阶扩展建议：从“能用”到“好用”的三条路径

这套包的设计初衷是“开箱即用”，但它真正的价值，在于你能基于它快速构建自己的分析体系。分享三个我亲身验证过的扩展方向：

路径一：接入企业微信/钉钉机器人，实现采集完成自动通知
在savedata.py的save_to_excel()末尾加一段：

import requests webhook_url = 'https://qyapi.weixin.qq.com/xxx' # 企业微信机器人地址 requests.post(webhook_url, json={ 'msgtype': 'text', 'text': {'content': f'✅ 拉勾网采集完成！深圳Python岗共{len(df)}条，已生成词云'} })

这样，你下班前启动爬虫，回家路上就能在手机上看到结果，不用守着电脑。

路径二：用SQLite替代MySQL，实现零配置本地分析
如果只是个人分析，MySQL太重。把savedata.py里的save_to_db()改成：

import sqlite3 conn = sqlite3.connect('job_data.db') df.to_sql('job_data', conn, if_exists='append', index=False) conn.close()

然后用sqlite3 job_data.db直接执行SQL查询，比装MySQL省2小时。

路径三：增加“岗位描述相似度”分析，识别隐形技能要求
在analysis.py里引入sentence-transformers：

from sentence_transformers import SentenceTransformer model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') embeddings = model.encode(df['job_description'].tolist()) # 计算余弦相似度，找出“Python”和“数据分析”岗位描述的语义接近度

这能发现：虽然岗位标题没写“机器学习”，但描述里“处理海量用户行为日志”“构建用户画像模型”等句子，与机器学习岗位描述相似度达0.82——这才是业务部门真正关心的“隐性技能需求”。

最后再分享一个小技巧：每次运行爬虫前，先执行git status，确认config.py和citynum.py没被意外修改。人力分析的本质，是让数据说话；而让数据说真话的前提，是你清楚每一行代码在做什么。这个包不是终点，而是你构建自己人力数据能力的第一块砖。

本文还有配套的精品资源，点击获取

查看全文

http://www.jsqmd.com/news/976503/