北京空气质量Hadoop系统设计
系统设计与实现详解
第一章 系统概述与架构设计
1.1 系统背景
北京空气质量数据量庞大(逐小时监测),传统单机数据库难以高效处理历史数据的批量分析与模型训练。本系统利用Hadoop生态:
- HDFS:存储原始CSV/JSON数据。
- MapReduce:进行离线统计(如年/季/月均PM2.5)。
- Spark MLlib:实现时序预测模型。
- MySQL:存储统计后的结果数据。
- ECharts:前端可视化展示。
北京空气质量数据量庞大(逐小时监测),传统单机数据库难以高效处理历史数据的批量分析与模型训练。本系统利用Hadoop生态: