当前位置：首页 > news >正文

数据集清洗

news 2026/5/14 13:12:09

基于YAML（自动化）

python版本>3.10

1.创建虚拟环境

conda create -n datawash python=3.10 -y conda activate datawash

2.安装 Data-Juicer

pip install py-data-juicer[sci]

安装验证：dj-process --help

3.任务配置编写Recipe(数据配方)

3.1准备数据

准备一个.jsonl格式的文件

每段是text格式的json对象

{"text": "这是一段高质量的文本。"} {"text": "这是另一段文本，包含一些垃圾信息... http://example.com/spam"}

3.2创建yaml文件

# --- 全局参数 --- project_name: 'my_first_cleaning_task' # 项目名称 dataset_path: './my_raw_data.jsonl' # 输入数据集路径 export_path: './clean_data.jsonl' # 清洗后输出路径 np: 4 # 使用的进程数 (加速处理) # --- 数据处理流程 (Process) --- # 在这里，按顺序列出你想执行的所有操作算子 (Operator) process: # 1. 清理与规范化 (Mapper) - clean_email_mapper: # 清理邮箱地址 - clean_links_mapper: # 清理超链接 - fix_unicode_mapper: # 修复Unicode乱码 - punctuation_normalization_mapper: # 标点符号规范化 - whitespace_normalization_mapper: # 空格规范化 # 2. 启发式过滤 (Filter) - words_num_filter: # 过滤文本词数不在指定范围内的 lang: 'en' # 指定语言(中文用 'zh') min_num: 50 # 最小词数 max_num: 100000 # 最大词数 - character_repetition_filter: # 过滤字符大量重复的文本 rep_len: 10 max_ratio: 0.2 - special_characters_filter: # 过滤特殊字符占比过高的 max_ratio: 0.3 # 3. 质量过滤 (基于模型) - perplexity_filter: # 基于困惑度(PPL)过滤低质文本 lang: 'en' # 注意语言设定 max_ppl: 1500 # 最大困惑度阈值 # 4. 文档去重 (Deduplicator) - document_simhash_deduplicator: # 基于SimHash的模糊去重 tokenization: 'space' # 分词方式 window_size: 6 hamming_distance: 4

3.3执行

dj-process --config .yaml文件

3.4成品数据位置

./clean_data.jsonl

4.数据分析与可视化

4.1成品数据统计报告

dj-analyze --config .yaml文件

4.2可视化分析（内置工具）

streamlit run app.py

http://www.jsqmd.com/news/815347/

相关文章：

ARMv9内存管理：TCR2_EL1寄存器详解与优化实践

ESP32-CAM与OV2640：从零搭建无线视频监控系统

从玩具级到入门级：手把手拆解SimpleBGC开源云台的SPWM电机驱动（附STM32代码分析）

2026年上海屋面防水机构推荐，品质服务双保障 - 十大品牌榜单

如何用Ice在5分钟内彻底解决macOS菜单栏混乱问题

打造独特游戏体验：开源资源编辑器的完全指南

零基础学 Temu 跨境电商难吗？3 家易上手的培训机构推荐 - 麦克杰

构建可审计自动化工作流：auditable-aw 核心原理与实践指南

oiioii邀请码 2026年5月14号最新

GSM8K测试TOP 0.3%解题路径曝光：DeepSeek如何用符号感知+分步验证拿下最难15题（附可复现prompt库）

PaddleOCR训练避坑指南：从数据集准备到模型转换，我踩过的那些坑

使用Taotoken CLI工具一键配置团队统一的大模型开发环境

EncodingChecker：终极文件编码检测与转换解决方案完全指南

2026年环意官方集锦（截止s5）

别再手动填数据了！用Matlab脚本一键生成FPGA波形COE文件（附正弦/三角/方波源码）

SSVEPNet进阶：融合视觉注意力与谱约束的跨被试脑电识别新范式

北京找招标代理认准安华招标！附全国标书代写 + 安华招标网信息指南 - 安华招标

Verilog实战：从零构建高效仲裁器（Arbiter）的设计与优化

Midjourney生成图商用侵权风险预警（国家版权局2024通报案例）：3类必须签署的授权协议范本

Grafana 密码遗忘别慌张，一文详解命令行与数据库两种重置admin密码方案

2026年｜国内外15款热门降AI率工具测评！亲测有效，降AI必备 - 降AI实验室

AI研究代理：聚合真实用户行为，打破信息孤岛，实现智能信息整合

如何高效使用Android万能播放器：OPlayer完整配置与实战指南

Chrome网页批量替换神器：3分钟掌握高效文本编辑技巧

高效解锁九大网盘下载限制：LinkSwift浏览器插件深度解析

不只是教程：复盘我在机械革命Code 01上折腾WSL2+Docker的72小时（附完整资源包）

如何用D2DX让《暗黑破坏神2》在现代PC上焕发新生：从卡顿25帧到流畅60帧的蜕变之旅

Vue项目里ECharts 5.3.3地图不显示？手把手教你离线配置china.json和省市地图

AI配音演员平替革命（2024企业级落地白皮书）：实测TTS自然度MOS分≥4.2、API响应＜380ms的4个隐秘优选

黑群晖风扇转速问题