当前位置：首页 > news >正文

Python抓取广东省各城市租房数据并存储

news 2026/7/12 8:10:59

广东省各城市租房数据爬取项目详解

项目背景与目标

在当今房价高企的时代，租房成为了许多人尤其是年轻人的首选居住方式。对于租房者来说，如何快速获取准确、全面的租房信息是一个重要需求。同时，对于数据分析爱好者和房地产研究人员来说，大量的租房数据也是进行市场分析的宝贵资源。

基于此，我开发了一个广东省各城市租房数据爬取项目，旨在从主流房产网站获取最新的租房信息，并将其存储到CSV文件和MySQL数据库中，为后续的数据分析和推荐系统提供基础数据支持。

技术栈选择

在项目开发中，我选择了以下技术栈：

Python：作为主要开发语言，其丰富的库生态非常适合爬虫开发
Requests：用于发送HTTP请求，获取网页内容
lxml：用于解析HTML，提取所需数据
CSV：作为中间存储格式，方便数据的临时保存和查看
Django：作为Web框架，用于后续的数据管理和网站展示（但针对这个爬虫代码可以去掉）

爬虫实现详解

1. 核心爬虫逻辑

爬虫的核心逻辑位于Main.py文件中，主要实现了以下功能：

importrequestsfromlxmlimportetreeimportcsvimporttime headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.64 Safari/537.36','cookie':'...'# 此处为浏览器cookie}each_page_number=0all_page_number=0foriinrange(1,51):url=f'https://zh.lianjia.com/zufang/pg{i}/#contentList'res=requests.get(url,headers=headers)html=etree.HTML(res.text)all_div=html.xpath('//div[@class="content__list"]/div')# 后续数据提取逻辑...

2. 数据提取与处理

爬虫从链家网站的租房列表页面提取以下信息：

标题：房源的标题信息
类型：房源类型（如住宅、公寓等）
布局：房屋布局（如几室几厅）
朝向：房屋朝向
城市：默认为珠海市
行政区：所属行政区
街道：所属街道
面积：房屋面积
价格：租金价格
标签：房源特色标签
详情：房源详情链接
图片链接：房源图片链接

关键数据提取代码如下：

fordivinall_div:title=div.xpath('.//a[@class="twoline"]/text()')ifnottitle:continueelse:try:mes=div.xpath('.//a[@class="twoline"]/text()')[0].strip().split()title=mes[0].split('·')[-1]style=mes[0].split('·')[0]building=mes[1]direction=mes[2]city='珠海市'position=div.xpath('.//p[@class="content__list--item--des"]/a/text()')division=position[0]street=position[1]area=div.xpath('.//p[@class="content__list--item--des"]/text()')[4].strip()price=div.xpath('.//span[@class="content__list--item-price"]/em/text()')[0]tags=div.xpath('.//p[@class="content__list--item--bottom oneline"]/i/text()')detail=div.xpath('.//a[@class="content__list--item--aside"]/@href')[0]detail='https://hz.lianjia.com/'+detail pic=div.xpath('.//a[@class="content__list--item--aside"]/img/@data-src')[0]# 数据写入逻辑...exceptExceptionase:print(f'{e}')

3. 数据存储

爬虫将提取的数据存储到CSV文件中，方便后续处理：

withopen('guangdong_house.csv','a+',encoding='utf-8-sig',newline='')asfile:writer=csv.writer(file)# 写入数据writer.writerow([title,style,building,direction,city,division,street,area,price,tags,detail,pic])

4. 反爬措施

为了避免被网站反爬机制检测，爬虫采取了以下措施：

设置了合理的User-Agent头
携带了浏览器cookie
每爬取一页后休眠2秒
异常捕获机制，确保爬虫不会因为个别页面的异常而中断

数据导入数据库

为了方便后续的数据分析和管理，项目使用import_csv_to_db.py脚本将CSV文件中的数据导入到Django数据库中：

1. 数据预处理

在导入数据库之前，脚本对数据进行了预处理：

defparse_area(area_text):ifnotarea_text:return0.0,area_textmatch=re.search(r'(\d+\.?\d*)',area_text)ifmatch:area_value=float(match.group(1))returnarea_value,area_textreturn0.0,area_text

2. 数据库模型映射

脚本将CSV数据映射到Django的Rental模型中：

rental=Rental(title=row.get('标题',''),type=row.get('类型',''),layout=row.get('布局',''),orientation=row.get('朝向',''),city=row.get('城市',''),district=row.get('行政区',''),street=row.get('街道',''),area_text=area_text,area=area_value,price_text=price_text,price=price_value,tags=row.get('标签',''),detail=row.get('详情',''),imgs=row.get('图片链接',''),oid=oid)rental.save()

3. 导入统计

脚本还实现了导入统计功能，记录成功导入和失败的记录数：

print(f"\n导入完成!")print(f"成功导入:{success_count}条")print(f"失败:{error_count}条")

项目运行流程

运行爬虫：执行Main.py脚本，爬取链家网站的租房数据
生成CSV文件：爬虫将数据保存到guangdong_house.csv文件中
导入数据库：执行import_csv_to_db.py脚本，将CSV数据导入到Django数据库
数据分析与应用：使用导入的数据进行后续的分析和应用

遇到的问题与解决方案

反爬机制：链家网站有一定的反爬机制，通过设置合理的请求头和休眠时间，成功避免了被封禁
数据格式不一致：不同房源的信息格式可能略有不同，通过异常捕获和数据清洗，确保了数据的一致性
数据量较大：爬取50页数据可能会产生大量记录，通过分批处理和数据库优化，确保了导入过程的稳定性

项目价值与应用场景

租房信息查询：为用户提供最新、全面的租房信息
市场分析：通过对大量租房数据的分析，了解广东省特别是珠海市的租房市场趋势
价格预测：基于历史数据，预测未来租房价格走势
推荐系统：根据用户需求，推荐合适的租房信息
学术研究：为房地产相关研究提供数据支持

总结

广东省租房数据爬取项目是一个结合了网络爬虫、数据处理和数据库技术的综合应用。通过该项目，我们不仅获取了大量有价值的租房数据，也为后续的数据分析和推荐系统奠定了基础。

在开发过程中，我们遇到了各种挑战，但通过合理的技术选型和代码设计，成功实现了项目目标。这个项目不仅展示了Python在数据采集和处理方面的强大能力，也体现了如何将原始数据转化为有价值的信息资源。

未来，我们可以考虑进一步优化爬虫效率，增加更多数据源，以及开发基于这些数据的可视化和推荐系统，为用户提供更加全面和智能的租房服务。

使用说明

运行Main.py时比如要爬取深圳市的数据，就需要把url = f’https://zh.lianjia.com/zufang/pg{i}/#contentList’中的zh改为sz即可，城市的首字母组合，同时把city = '深圳市’即刻，因为链家网是直接显示该城市的数据，位置信息只有行政区和街道相关数据，没有城市，我们需要爬取整个省份的各个城市后面做数据分析相关操作就要爬取哪个城市给这个字段手动标记一下存储进去！