当前位置: 首页 > news >正文

数据集清洗

基于YAML(自动化)

python版本>3.10

1.创建虚拟环境

conda create -n datawash python=3.10 -y conda activate datawash

2.安装 Data-Juicer

pip install py-data-juicer[sci]

安装验证:dj-process --help

3.任务配置编写Recipe(数据配方)

3.1准备数据

准备一个.jsonl格式的文件

每段是text格式的json对象

{"text": "这是一段高质量的文本。"} {"text": "这是另一段文本,包含一些垃圾信息... http://example.com/spam"}

3.2创建yaml文件

# --- 全局参数 --- project_name: 'my_first_cleaning_task' # 项目名称 dataset_path: './my_raw_data.jsonl' # 输入数据集路径 export_path: './clean_data.jsonl' # 清洗后输出路径 np: 4 # 使用的进程数 (加速处理) # --- 数据处理流程 (Process) --- # 在这里,按顺序列出你想执行的所有操作算子 (Operator) process: # 1. 清理与规范化 (Mapper) - clean_email_mapper: # 清理邮箱地址 - clean_links_mapper: # 清理超链接 - fix_unicode_mapper: # 修复Unicode乱码 - punctuation_normalization_mapper: # 标点符号规范化 - whitespace_normalization_mapper: # 空格规范化 # 2. 启发式过滤 (Filter) - words_num_filter: # 过滤文本词数不在指定范围内的 lang: 'en' # 指定语言(中文用 'zh') min_num: 50 # 最小词数 max_num: 100000 # 最大词数 - character_repetition_filter: # 过滤字符大量重复的文本 rep_len: 10 max_ratio: 0.2 - special_characters_filter: # 过滤特殊字符占比过高的 max_ratio: 0.3 # 3. 质量过滤 (基于模型) - perplexity_filter: # 基于困惑度(PPL)过滤低质文本 lang: 'en' # 注意语言设定 max_ppl: 1500 # 最大困惑度阈值 # 4. 文档去重 (Deduplicator) - document_simhash_deduplicator: # 基于SimHash的模糊去重 tokenization: 'space' # 分词方式 window_size: 6 hamming_distance: 4

3.3执行

dj-process --config .yaml文件

3.4成品数据位置

./clean_data.jsonl

4.数据分析与可视化

4.1成品数据统计报告

dj-analyze --config .yaml文件

4.2可视化分析(内置工具)

streamlit run app.py
http://www.jsqmd.com/news/815347/

相关文章:

  • ARMv9内存管理:TCR2_EL1寄存器详解与优化实践
  • ESP32-CAM与OV2640:从零搭建无线视频监控系统
  • 从玩具级到入门级:手把手拆解SimpleBGC开源云台的SPWM电机驱动(附STM32代码分析)
  • 2026年上海屋面防水机构推荐,品质服务双保障 - 十大品牌榜单
  • 如何用Ice在5分钟内彻底解决macOS菜单栏混乱问题
  • 打造独特游戏体验:开源资源编辑器的完全指南
  • 零基础学 Temu 跨境电商难吗?3 家易上手的培训机构推荐 - 麦克杰
  • 构建可审计自动化工作流:auditable-aw 核心原理与实践指南
  • oiioii邀请码 2026年5月14号最新
  • GSM8K测试TOP 0.3%解题路径曝光:DeepSeek如何用符号感知+分步验证拿下最难15题(附可复现prompt库)
  • PaddleOCR训练避坑指南:从数据集准备到模型转换,我踩过的那些坑
  • 使用Taotoken CLI工具一键配置团队统一的大模型开发环境
  • EncodingChecker:终极文件编码检测与转换解决方案完全指南
  • 2026年环意官方集锦(截止s5)
  • 别再手动填数据了!用Matlab脚本一键生成FPGA波形COE文件(附正弦/三角/方波源码)
  • SSVEPNet进阶:融合视觉注意力与谱约束的跨被试脑电识别新范式
  • 北京找招标代理认准安华招标!附全国标书代写 + 安华招标网信息指南 - 安华招标
  • Verilog实战:从零构建高效仲裁器(Arbiter)的设计与优化
  • Midjourney生成图商用侵权风险预警(国家版权局2024通报案例):3类必须签署的授权协议范本
  • Grafana 密码遗忘别慌张,一文详解命令行与数据库两种重置admin密码方案
  • 2026年|国内外15款热门降AI率工具测评!亲测有效,降AI必备 - 降AI实验室
  • AI研究代理:聚合真实用户行为,打破信息孤岛,实现智能信息整合
  • 如何高效使用Android万能播放器:OPlayer完整配置与实战指南
  • Chrome网页批量替换神器:3分钟掌握高效文本编辑技巧
  • 高效解锁九大网盘下载限制:LinkSwift浏览器插件深度解析
  • 不只是教程:复盘我在机械革命Code 01上折腾WSL2+Docker的72小时(附完整资源包)
  • 如何用D2DX让《暗黑破坏神2》在现代PC上焕发新生:从卡顿25帧到流畅60帧的蜕变之旅
  • Vue项目里ECharts 5.3.3地图不显示?手把手教你离线配置china.json和省市地图
  • AI配音演员平替革命(2024企业级落地白皮书):实测TTS自然度MOS分≥4.2、API响应<380ms的4个隐秘优选
  • 黑群晖风扇转速问题