HBM Predictor数据集完全指南:从19个数据中心收集的HBM错误数据深度解析
HBM Predictor数据集完全指南:从19个数据中心收集的HBM错误数据深度解析
【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor
前往项目官网免费下载:https://ar.openeuler.org/ar/
HBM Predictor是一个基于数据驱动的深度分析工具,专为高带宽内存(HBM)设计的层级故障预测模型。本文将全面解析其核心数据集,帮助新手和普通用户轻松理解从19个数据中心收集的HBM错误数据结构与应用价值。
数据集概述:19个数据中心的宝贵资源
HBM Predictor公开了从19个数据中心收集的珍贵数据集,存放于项目的data文件夹中。这些数据经过专业处理,为HBM故障预测研究提供了坚实基础。数据集分为两大核心部分:原始数据(raw_data)和处理后数据(processed_data),满足不同层级的分析需求。
原始数据(raw_data):HBM错误的第一手记录
原始数据位于data/raw_data目录下,包含一个名为dataset(opensource).csv的文件。它记录了HBM错误发生的具体细节,包括错误位置、时间和类型等关键信息。数据格式示例如下:
| Datacenter | Server | Name | Stack | SID | PcId | BankGroup | BankArray | Col | Row | Time | EccType |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Datacenter8 | 0.108.38.22 | DSA3 | 0x3 | 0x0 | 0x1 | 0x2 | 0x1 | 0x54 | 0x3e2b | 1650690000 | UER |
| Datacenter8 | 0.108.38.22 | DSA3 | 0x3 | 0x0 | 0x1 | 0x2 | 0x1 | 0x5c | 0x3fbb | 1650690000 | UER |
| Datacenter0 | 0.0.0.16 | DSA8 | 0x0 | 0x0 | 0x4 | 0x2 | 0x3 | 0x58 | 0x2a57 | 1652709600 | CE |
原始数据中的关键字段解释:
- EccType:错误类型,如CE(可纠正错误)和UER(不可纠正错误)
- Time:错误发生的时间戳
- Row/Col:错误在内存中的行列位置
- Datacenter/Server:错误发生的地点信息(已脱敏)
处理后数据(processed_data):多层级预测的特征工程成果
处理后数据位于data/processed_data目录,包含四类CSV文件,分别对应不同层级的预测需求:
data_for_bank-level_prediction.csv:内存Bank层级预测数据data_for_col-level_prediction.csv:列层级预测数据data_for_row-level_prediction.csv:行层级预测数据data_for_server-level_prediction.csv:服务器层级预测数据
以Bank层级预测数据为例,其包含丰富的特征和标签:
| Peak Power | Aver Power | Temp | CE_Row | CE_Col | CE_Cell | UER_Row | UER_Col | UER_Cell | UEO_Row | UEO_Col | UEO_Cell | All_Row | All_Col | All_Cell | SID_0 | SID_1 | label |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 | 0 |
| 1.036677418 | 1.035688311 | 0.992300485 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 | 0 |
这些处理后的数据添加了功率(Peak Power/Aver Power)、温度(Temp)等环境特征,以及不同类型错误的统计信息,可直接用于训练HBM故障预测模型。
数据安全与使用说明
请注意,数据集中的敏感信息(如具体服务器IP)已进行脱敏处理,确保数据安全。所有数据仅用于学术研究和技术探索,不得用于商业用途。
要获取完整数据集,可通过以下命令克隆项目仓库:
git clone https://gitcode.com/openeuler/hbm-predictor数据集的详细分析代码可参考项目中的analyses目录,例如:
- 温度分布分析:avg_temp_distribution.py
- 错误模式研究:error_mode.py
- 功率影响分析:power_impact.py
总结:开启HBM故障预测研究的钥匙
HBM Predictor数据集是研究HBM内存故障的宝贵资源,它不仅提供了来自19个数据中心的真实错误数据,还通过专业的特征工程,为不同层级的预测任务做好了准备。无论是学术研究人员还是内存技术爱好者,都能通过这些数据深入了解HBM的故障模式,为构建更可靠的内存系统贡献力量。
通过本文的解析,希望您能对HBM Predictor数据集有一个清晰的认识,为后续的数据分析和模型构建打下良好基础。如有任何疑问,欢迎查阅项目文档或参与社区讨论。
【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
