当前位置: 首页 > news >正文

Zillow 数据集示例

Zillow 数据集示例(常见房产数据集样本展示)

Zillow(美国著名房地产平台)公开或通过爬取/竞赛分享的数据集主要有两类:

  • 宏观聚合数据:如 ZHVI(Zillow Home Value Index,房屋价值指数),这是 Zillow Research 每月发布的 CSV,追踪区域中位房价趋势。
  • 微观房产级数据:如 Kaggle “Zillow Prize” 竞赛数据集(2017 年),包含单个房产的特征 + 实际售价误差;或第三方爬取的 listing 数据(zpid、地址、卧室数、价格、Zestimate 等)。

下面给你几个典型示例(基于公开来源的样本行或结构描述):

1. Zillow Research ZHVI 示例(区域房价指数,宏观聚合型)

这是最官方的公开数据集之一,格式为 CSV,每行是一个地区(如 Metro、City、Zip)的月度中位房价估算。

典型列(部分):

  • RegionID
  • RegionName (e.g., Metro name or Zip code)
  • SizeRank
  • RegionType (e.g., Metro, City, Zip)
  • StateName
  • 然后是大量日期列:2000-01-31, 2000-02-29, …, 最新月

示例行(简化,假设 Metro 数据):

RegionNameStateName2025-01-312025-02-282025-03-31
New York-Newark-Jersey CityNY682400685200688900
Los Angeles-Long Beach-AnaheimCA912500918000923700
Chicago-Naperville-ElginIL345600347800350200

下载地址示例:https://www.zillow.com/research/data/(每月更新,选择 ZHVI → Metro 等)。

2. Kaggle Zillow Prize 数据集示例(房产级,微观 + 预测误差)

这是最经典的机器学习数据集(2017 竞赛),目标是预测 log-error = log(实际售价) - log(Zestimate)。

properties_2016.csv(房产特征,主表,约 3M 行,58 列)

典型列(部分):

  • parcelid(房产唯一 ID)
  • bathroomcnt(浴室数)
  • bedroomcnt(卧室数)
  • calculatedfinishedsquarefeet(计算完工面积)
  • latitude / longitude
  • lotsizesquarefeet(地块面积)
  • yearbuilt(建造年份)
  • taxvaluedollarcnt(税评估价值)
  • regionidcity / regionidzip 等

示例前几行(简化,基于公开 notebook 描述):

parcelidbathroomcntbedroomcntcalculatedfinishedsquarefeetyearbuilttaxvaluedollarcntlatitudelongitude
107541470.00.0NaNNaN9.034144442-118654084
107595473.04.03560.01951.01023282.034140436-118625360
108050632.02.0730.01949.0464000.034171012-118414328

train_2016_v2.csv(训练标签,只有部分房产有):

parcelidtransactiondatelogerror
107541472016-01-010.0276
107595472016-01-01-0.1685

这个数据集现在在 Kaggle 上还能下载:https://www.kaggle.com/c/zillow-prize-1/data

3. 第三方爬取的 Zillow Listing 数据示例(常见商业/研究样本)

很多第三方(如 Bright Data、PromptCloud)提供或分享的 Zillow listing 样本,字段更贴近当前网页显示。

典型字段(部分):

  • zpid(Zillow Property ID)
  • url
  • address / street
  • city / state / zip
  • beds / baths
  • sqft
  • price(售价或租金)
  • zestimate(Zillow 估价)
  • rentZestimate(租金估价)
  • year_built
  • home_status(For Sale / Sold / Rent 等)
  • latitude / longitude

示例行(基于公开样本,如 Bright Data 或 Actowiz 的预览):

zpidaddresscitystatezipbedsbathssqftpricezestimateyear_builthome_status
12345678123 Main StManhattanNY10019221200329000033500002010For Sale
87654321456 BroadwayAstoriaNY11105219002750002800001995Sold
11223344789 Ocean AveLos AngelesCA9000132.518009500009800002005For Rent

这些是常见样本结构,实际数据量从几千到上百万行不等。

如果你需要:

  • 下载具体文件(ZHVI 或 Kaggle 数据)
  • 用 Python/Pandas 加载示例代码
  • 某个特定字段的分布/分析示例

告诉我你的用途(机器学习建模?房价预测?数据分析?),我可以给你更针对性的代码或链接~

http://www.jsqmd.com/news/405903/

相关文章:

  • 视频孪生之上 · 空间计算元年:视频融合之上的矩阵级表达体系——基于统一空间坐标体系的跨摄像连续表达与动态标定自修正工程框架
  • OpenClaw 会话机制与记忆系统深度剖析
  • 基于模型预测控制的楼宇负荷需求响应研究 参考文档:《Model Predictive Cont...
  • 视频孪生之上:镜像视界构建可计算现实的空间级控制引擎——基于矩阵视频融合架构与统一空间坐标体系的跨摄像连续表达与趋势级风险前置计算平台
  • 大数据领域数据可视化,提升数据展示质量
  • AI原生应用领域可解释性助力智能决策
  • # 发散创新:用 Flink 实现毫秒级实时流处理架构设计与实践在当今
  • MONyog-5.6.9-0数据库监控安装步骤详解(附MySQL连接与监控设置教程)
  • 20260223_200856_SentGraph:用于多跳检索增强问答的层次化句子图谱
  • 视频孪生之上:镜像视界七层技术护城河体系全解析——构建不可复制的空间计算底座能力
  • 能源 × 水利 × 综合交通关键基础设施统一三维空间计算底座
  • RAG优化调优全流程(非常详细),Milvus可视化精准定位嵌入切块索引,收藏这一篇就够了!
  • RPDR底层逻辑深度剖析(非常详细),RAG密集检索从入门到精通,收藏这一篇就够了!
  • 大数据领域数据架构的生产制造优化
  • AI应用架构师实战:传统行业AI结合的6个安全设计技巧
  • 视频孪生之上:镜像视界矩阵视频融合重构空间表达逻辑——多摄像机空间矩阵标定 × 跨摄像连续表达 × 动态标定自修正机制
  • VR跨设备同步:提示工程如何让内容一致?
  • 视频孪生之上:镜像视界空间计算底座蓝海结构、竞争格局与市场规模测算
  • AI原生应用在客服机器人中的最新进展
  • 2026年3月谷歌独立站SEO优化推广服务商/公司深度评测推荐榜单:深圳昊客网络 - 深圳昊客网络
  • 探索AI原生应用领域API编排的无限可能
  • 从零到架构师:Taro 全链路学习与实战指南
  • 拉格朗日反演、多项式复合逆
  • UG NX 曲面补面
  • 什么样的低代码,才能真正落地?
  • 在JavaScript中,函数的可选参数
  • 2026年谷歌独立站SEO优化推广公司/服务商评测科普:昊客网络引领行业变革 - 深圳昊客网络
  • springboot基于微信小程序的大学生餐厅点餐系统
  • springboot基于微信小程序的电子元器件商城系统