当前位置: 首页 > news >正文

sra_benchmark数据集指南:如何准备Criteo-Kaggle和Taobao数据集进行搜推模型测试

sra_benchmark数据集指南:如何准备Criteo-Kaggle和Taobao数据集进行搜推模型测试

【免费下载链接】sra_benchmarkBenchmark for the Kunpeng SRA项目地址: https://gitcode.com/openeuler/sra_benchmark

前往项目官网免费下载:https://ar.openeuler.org/ar/

sra_benchmark是openEuler社区推出的面向Kunpeng SRA架构的搜推模型基准测试工具,支持Criteo-Kaggle和Taobao等主流数据集的快速部署与性能评估。本文将详细介绍如何准备这两类数据集,帮助新手用户快速上手搜推模型测试。

为什么选择Criteo-Kaggle和Taobao数据集?

在搜推模型开发中,高质量的数据集是确保测试准确性的关键。Criteo-Kaggle和Taobao数据集凭借其丰富的特征维度和真实业务场景,成为业内广泛使用的基准测试数据集:

  • Criteo-Kaggle:包含13个密集特征和26个稀疏特征,覆盖用户行为、广告点击等核心推荐场景,数据量达1TB级,适合大规模模型训练测试。
  • Taobao:包含用户历史行为序列、商品属性等电商场景特征,支持序列推荐模型的性能评估,贴近真实业务需求。

图:sra_benchmark支持的搜推模型特征交互架构,适用于Criteo-Kaggle和Taobao数据集的特征处理流程

快速准备Criteo-Kaggle数据集

数据集基本信息

Criteo-Kaggle数据集包含以下特征类型(详细定义见modelzoo/features/pmem/criteo.py):

  • 13个密集特征(如用户点击次数、广告展示次数等)
  • 26个稀疏特征(如用户ID、商品类别等,已进行哈希匿名处理)

数据集下载与预处理步骤

  1. 下载原始数据
    通过Criteo官方网站获取数据集(需注册账号):

    wget https://ailab.criteo.com/download-criteo-1tb-click-logs-dataset/
  2. 数据格式转换
    使用sra_benchmark提供的预处理工具将原始数据转换为TFRecord格式:

    python modelzoo/features/pmem/criteo.py --data_dir ./data/criteo --batch_size 1024
  3. 数据集划分
    工具会自动将数据划分为训练集(train/)和验证集(val/),存储路径结构如下:

    ./data/criteo/ ├── train/day_0_0.dat └── val/day_0_0.dat

轻松构建Taobao数据集

数据集特点与应用场景

Taobao数据集适用于序列推荐模型测试,如DIEN、DIN等(模型实现见modelzoo/dien/、modelzoo/din/),包含用户历史行为序列、商品属性等时序特征。

自动化数据准备流程

sra_benchmark提供了一键式数据准备脚本modelzoo/dien/data/prepare_data.sh,执行以下命令即可完成数据下载与预处理:

cd modelzoo/dien/data bash prepare_data.sh

脚本将自动完成以下步骤:

  1. 下载Amazon Books数据集(替代Taobao公开数据集)
  2. 数据清洗与格式转换(script/process_data.py)
  3. 用户行为序列构建(script/history_behavior_list.py)
  4. 负样本生成(script/generate_neg.py)

数据集在模型测试中的应用

训练与推理吞吐量测试流程

准备好数据集后,可通过sra_benchmark的吞吐量测试工具评估模型性能。测试流程如下:

图:基于sra_benchmark的训练与推理吞吐量测试完整流程,支持Criteo-Kaggle和Taobao数据集

关键测试脚本使用

  1. 训练吞吐量测试

    python modelzoo/train_throughput_test.py --dataset criteo --model deepfm
  2. 推理吞吐量测试

    python modelzoo/inference_throughput_test.py --dataset taobao --model dien

测试结果将自动保存至对应模型目录的result/文件夹,如modelzoo/deepfm/result/。

常见问题与解决方案

  • 数据下载速度慢:建议使用国内镜像源或提前下载至本地存储
  • 预处理内存不足:调整config.yaml中的batch_size参数
  • 特征维度不匹配:检查数据集路径是否正确,确保与modelzoo/features/中的特征定义一致

通过本文指南,您已掌握sra_benchmark中Criteo-Kaggle和Taobao数据集的准备方法。合理利用这些数据集,可有效评估搜推模型在Kunpeng SRA架构上的性能表现,为模型优化提供数据支持。

【免费下载链接】sra_benchmarkBenchmark for the Kunpeng SRA项目地址: https://gitcode.com/openeuler/sra_benchmark

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1088414/

相关文章:

  • C链接库,联动 Rust、Golang、Python
  • Codex EPERM 操作被拒绝错误处理
  • OAdvancedForm
  • sysSentry监控数据分析:如何利用巡检结果优化系统运维策略
  • Baseline模型:机器学习建模不可跳过的首行代码与问题校准器
  • DLSS Swapper终极指南:如何轻松管理游戏DLSS/FSR/XeSS文件提升性能
  • 3步解决容器镜像下载难题:DaoCloud镜像加速实战指南
  • AP-14 DDSI-RTPS协议深度解析 - 发现机制、可靠传输与线协议报文结构的硬核拆解
  • 半导体设备(光刻 / 刻蚀 / 离子注入)纯技术专家线晋升 CTO 完整岗位阶梯
  • 从零搭建Mixly蓝牙遥控小车:HC-05与L298N实战指南
  • [蓝桥杯]真题剖析:砍树(从暴力DFS到树上差分+LCA的算法演进)
  • HsMod:60+功能一键解锁炉石传说终极游戏体验
  • 【Streamlit实战指南】从零构建数据看板,一键部署云端实现公网共享
  • API签名机制逆向实战:以酷狗音乐为例解析加密算法与实现
  • CP-17 SOME/IP协议栈深度解析 - 面向服务的车载中间件从协议原理到AUTOSAR工程实战
  • Atmosphère:为任天堂Switch打造的多层定制化固件系统
  • Windows右键菜单终极管理指南:3步打造高效工作流
  • RePKG终极指南:轻松解包Wallpaper Engine资源,释放创意无限可能
  • 思科VLAN间ACL实战:IN与OUT方向判定的核心逻辑与配置解析
  • AI代理运行时层的范式革命:会话即事件日志
  • 解锁网盘下载新姿势:告别龟速,拥抱极速下载体验
  • 从零到一:OpenGL模型视图变换实战解析
  • openEuler系统升级健康检查工具:env_check全面指南与快速入门
  • 【毕业设计】基于 Java Web 的街道社区消防知识与设备管理系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • TMSpeech:Windows离线语音转文字的终极解决方案
  • Blender MMD Tools终极指南:快速实现MMD模型与动画的无缝导入导出
  • AI建站工具怎么选?一份拒绝忽悠的选型标准与对比指南
  • 企业信息平台逆向登录与风控对抗实战:从JS破解到Python实现
  • AdFind工具实战:从LDAP信息收集到Active Directory委派攻击检测
  • OCR识别助手