当前位置: 首页 > news >正文

GewisLab/CNEnvAir源成分谱应用:PMF/CMB模型数据准备指南

GewisLab/CNEnvAir源成分谱应用:PMF/CMB模型数据准备指南

【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir

GewisLab/CNEnvAir是一个专注于中国环境空气研究的开源数据集项目,提供了丰富的空气质量数据、气象数据和关键的源成分谱数据,这些源成分谱数据可直接用于PMF(正定矩阵因子分解)和CMB(化学质量平衡)等主流源解析模型,帮助研究人员高效开展空气污染源解析工作。

为什么选择CNEnvAir进行PMF/CMB模型研究?

CNEnvAir数据集专为空气污染源解析研究设计,其源成分谱数据具有以下显著优势:

  • 全面的污染源覆盖:包含工业燃烧源、工业工艺过程、民用燃烧源、生物质燃烧、畜牧源、道路移动源和非道路移动源等七大类,基本涵盖了中国主要大气污染源。

  • 丰富的化学组分:数据包含PM2.5、PM10、金属元素(如Na、Mg、Al、Si、K等)、离子(如sulfate、nitrate、ammonium)、有机组分(如多环芳烃PAHs)、有机胺(如甲胺、二甲胺)和气态组分(如IVOCs)等多种关键化学物质。

  • 标准化数据格式:所有源成分谱数据均采用Parquet格式存储,具有高压缩率和高效的读写性能,便于使用Python等工具进行数据处理和模型输入。

CNEnvAir源成分谱数据结构详解

核心源谱文件(PMF/CMB模型直接输入数据)

CNEnvAir的source_profiles目录下包含5个核心PM源谱文件,共计414行有效样本,是PMF/CMB模型的主要输入数据:

文件行数主要内容
PM_source_Industrial_boiler.parquet24工业锅炉PM源谱
PM_source_Industrial_process.parquet174工业工艺过程PM源谱
PM_source_Power_industry.parquet61电力行业PM源谱
PM_source_Residential.parquet95民用燃烧PM源谱
PM_source_Transportation.parquet60交通源PM源谱

这些文件包含统一的关键字段:

  • 一级源: 源类别(如工业燃烧、民用燃烧、交通等)
  • 二级源: 具体源类型(如锅炉、工艺过程等)
  • 采样地点: 采样区域
  • 采样时间: 采样年份
  • 组分名称: 化学组分
  • EF: 排放因子 (μg/kg 或 μg/m³)
  • 参考文献: 数据来源

辅助组分数据(模型优化与验证)

除核心PM源谱外,还有16个辅助组分文件,提供更详细的化学组分信息,可用于模型优化和结果验证:

  • 工业燃烧源:如工业燃烧源_常规组分.parquet,包含Na、Mg、Al等金属元素
  • 民用燃烧源:如民用燃烧源_有机组分(实验室模拟燃烧).parquet,包含多环芳烃(PAHs)
  • 生物质开放燃烧源生物质开放燃烧源_常规组分.parquet,包含K、Cl等特征组分
  • 移动源:如道路移动源_有机胺.parquet非道路移动源_气态组分.parquet

PMF/CMB模型数据准备步骤

1. 获取数据集

首先克隆CNEnvAir仓库到本地:

git clone https://gitcode.com/GewisLab/CNEnvAir.git cd CNEnvAir

2. 数据选择与提取

根据研究区域和目标污染物,选择合适的源谱文件。例如,若研究城市大气PM2.5来源,核心PM源谱文件是基础:

import pandas as pd # 读取工业锅炉PM源谱数据 industrial_boiler = pd.read_parquet("source_profiles/PM_source_Industrial_boiler.parquet") # 读取交通源PM源谱数据 transportation = pd.read_parquet("source_profiles/PM_source_Transportation.parquet") # 合并源谱数据 source_profiles = pd.concat([industrial_boiler, transportation], ignore_index=True)

3. 数据预处理

数据预处理是确保模型准确性的关键步骤,主要包括:

  • 单位统一:确保所有排放因子单位一致,CNEnvAir源谱数据主要使用μg/kg fuel、mg/kg fuel、mg/m³和ng/m³等单位。

  • 缺失值处理:检查并处理缺失数据,可根据研究需求选择删除或插值。

  • 异常值检测:使用统计方法(如Z-score)识别并处理异常值。

  • 组分筛选:根据模型要求和研究目标,筛选出关键化学示踪物。

4. 模型输入格式转换

PMF和CMB模型通常需要特定格式的输入文件,可使用Python将处理后的源谱数据转换为模型所需格式:

# 提取组分名称和排放因子,准备PMF模型输入 pmf_input = source_profiles.pivot_table(index=['一级源', '二级源'], columns='组分名称', values='EF').fillna(0) # 保存为CSV格式 pmf_input.to_csv('pmf_source_profiles.csv')

数据使用注意事项

  1. 数据适用性:CNEnvAir源谱数据主要针对中国区域污染源,使用时需考虑研究区域与数据采样地点的地理差异。

  2. 时间范围:源谱数据的采样时间范围需与受体数据(如空气质量监测数据)的时间范围相匹配,以确保解析结果的准确性。

  3. 数据引用:如使用本数据集发表研究成果,请注明数据来源。

  4. 数据更新:CNEnvAir项目会定期更新数据,建议关注项目最新动态以获取更完善的源谱数据。

总结

GewisLab/CNEnvAir提供了高质量、标准化的源成分谱数据,为PMF和CMB等源解析模型的应用提供了便捷的数据基础。通过本文介绍的步骤,研究人员可以快速完成模型数据准备,专注于污染源解析方法和结果分析,从而更高效地开展大气污染来源研究工作。

如需进一步了解数据集详情,可参考项目根目录下的README.md和source_profiles目录下的README.md文件,获取更全面的数据说明和使用指南。

【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/953263/

相关文章:

  • Python自动化抢票技术深度解析:大麦网秒杀系统架构设计与实现原理
  • Medium数据科学内容筛选指南:出版物与标签的工程化鉴别法
  • CANN/asc-devkit同步控制函数
  • 从仿真误差到精准结果:深入解读FDTD中Q值计算的两种核心算法(低Q腔 vs 高Q腔)
  • 生产级多维聚合:从Pandas groupby到可审计可扩展的分析基建
  • Windows终极优化神器:WinUtil完整指南 - 一键解决系统卡顿与软件安装烦恼
  • 2025-2026年北京宣传片拍摄公司推荐:五大口碑评测专业案例与适用场景 - 品牌推荐
  • MusicFree插件终极指南:5分钟打造你的专属音乐宇宙
  • ShaderGraph避坑指南:从代码Shader转视觉化编程,我踩过的那些‘节点’坑
  • 如何快速实现AI设计转代码:Figma-Context-MCP完整使用教程
  • use-mcp:React开发者的终极MCP连接解决方案
  • CANN/asc-devkit: Reg矢量存储对齐接口
  • 避坑指南:QT调用周立功CAN库(zlgcan.dll)时,设备初始化、波特率设置的那些常见错误与排查方法
  • 音频可视化神器Sonic Visualiser:从零开始的音乐分析完整指南
  • AI提示驱动三维建模:用自然语言生成可打印OpenSCAD代码
  • 博尚机械树枝粉碎机:全型号参数表,支持按需定制,全国3-7天发货! - 会飞的懒猪
  • STM32F407双CAN触发式IAP升级工程:含FreeRTOS多任务APP与独立IAP引导程序
  • PDMS管道设计效率翻倍:手把手教你安装NakiPipeline插件(附常见错误排查)
  • 【Java基础知识 2】开发环境配置及idea的下载配置
  • 从理论到实践:welcome_tutorials神经网络库使用完全指南 [特殊字符]
  • 别再对着官方文档发愁了!手把手教你用Java解密抖音用户手机号(附完整代码)
  • Linux用户必看!3步创建Umi-OCR桌面快捷方式,告别繁琐命令行
  • 2026年6月钢格板厂家推荐:五大专业评测工程荷载防变形性价比高价格 - 品牌推荐
  • 深入ZYNQ7000的PL中断:手把手配置AXI GPIO中断,并解决IRQ_F2P只能高电平/上升沿触发的问题
  • DeepSeek-R1实战避坑指南:MoE架构、Tokenizer与Agent工程陷阱
  • STM32F103裸机移植CanFestival-3全记录:从源码下载到心跳包测试(附对象字典生成工具避坑)
  • 别只换源了!给Jetson Nano配置更高效的开发环境:Python虚拟环境与常用库一键安装脚本
  • 从智能车竞赛到DIY电源:固态电容替换液态电容的实战避坑指南(附发热对比测试)
  • 5 维 AI 训练数据 pipeline:巴别鸟智巢 + RAG + 5 段代码 + 89.3% F1 实战
  • 用PS给《五等分的花嫁》三玖制作专属隐藏图:手把手教你玩转图层与通道