如何利用MNBVC超大规模中文语料库训练你的AI模型:完整指南
如何利用MNBVC超大规模中文语料库训练你的AI模型:完整指南
【免费下载链接】MNBVCMNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC
想要训练出真正懂中文的AI模型吗?MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料库为你提供了前所未有的中文数据资源!这个开源项目已经积累了超过60TB的中文文本数据,目标是达到253TB,为中文自然语言处理研究和AI模型训练提供了坚实的数据基础。无论你是AI研究人员、开发者还是学生,MNBVC都能为你的项目提供丰富的语料支持。😊
📊 项目概览:中文AI的"数据宝库"
MNBVC是一个持续更新的中文语料库项目,它不仅包含主流文化内容,还涵盖了各种小众文化甚至火星文数据。这个数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
上图展示了MNBVC项目创建的初衷——强调中文大语言模型训练对高质量语料数据的迫切需求
🎯 核心数据特点
- 超大规模:目前已达60732GB,目标253TB,进度24%
- 格式多样:包含TXT、JSON、JSONL和Parquet(多模态专用)格式
- 来源广泛:数据均来源于互联网收集,覆盖各类中文文本
- 持续更新:数据按日期组织,从2022年12月持续更新至今
🔧 快速上手:三种数据获取方式
方式一:微力同步(推荐)
使用P2P微力同步工具可以自动接收更新,保持数据最新:
微力密钥part1: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ 微力密钥part2: B4FQSD525XQQDY6XNO7JZ6BM2EIKAUTVPLLVX6N52HIWBZ7G72R7EQ注意:建议关闭TCP穿透和UDP传输设置,否则可能堵塞路由器。
方式二:百度网盘下载
如果你只需要特定时间段的数据,可以通过百度网盘选择性下载。项目提供了详细的下载列表,每个压缩包都标注了压缩后大小和原始大小,方便你规划存储空间。
方式三:克隆代码仓库
如果你想获取数据处理工具和项目代码:
git clone https://gitcode.com/gh_mirrors/mn/MNBVC重要提示:压缩包密码统一为253874
🛠️ 数据处理工具套件
MNBVC项目组开发了一系列专门针对大规模中文语料处理的工具,这些工具在现有开源软件基础上进行了优化:
中文大语料清洗工具
- charset_mnbvc- 更快速且准确的中文编码检测工具
- deduplication_mnbvc- 将TXT批量转成JSONL并识别段落重复文件
- scan_copy_files_mnbvc- 从多层目录中按关键词采样文件并保留目录结构
- DataCheck_MNBVC- MNBVC语料格式统一检查工具
- DataClean-MNBVC- 数据清洗示例及工具集
代码仓库爬虫工具
为避免重复劳动,MNBVC提供了经过大规模验证的代码仓库爬虫代码:
- publicRepos_mnbvc- 爬取GitHub代码仓库meta信息
- github_downloader_mnbvc- 爬取GitHub代码仓库最新版本代码
- notabug_download_mnbvc- 爬取notabug代码仓库
- bitbucket_crawl_mnbvc- 爬取bitbucket代码仓库
- githubcode_extractor_mnbvc- 将代码转为语料
多模态处理工具
随着多模态AI模型的发展,MNBVC也提供了相应的处理工具:
- pdf_meta_data_mnbvc- PDF元信息抽取工具
- mmdp_mnbvc- PDF解析规则工具
- Arxiv_mllm_mnbvc- Arxiv文档解析工具
- docling_parse_mnbvc- 将PDF文件转换为JSON和Markdown格式的工具
🚀 实际应用场景
中文大语言模型训练
MNBVC语料库为中文大语言模型训练提供了前所未有的数据规模和质量。数据已经过初步处理:
- 数据脱敏:去掉大于等于8位的数字串进行隐私保护
- 格式转换:HTML/XML转TXT、CSV/TSV转JSON等粗加工
- 来源追踪:每个数据包都包含来源信息链接
自然语言处理研究
对于NLP研究人员,MNBVC提供了丰富的语料资源:
- 语言模型预训练:基于大规模无监督语料
- 文本分类任务:利用多样化的文本类型
- 机器翻译训练:包含多种文体和领域
- 文本生成研究:丰富的创作性文本资源
📝 数据格式与组织
压缩包结构
每个压缩包都采用统一的组织方式:
压缩包根目录/ ├── links.txt # 数据来源URL信息 ├── 子文件夹1/ │ ├── data.txt/json/jsonl/parquet │ └── screenshot.png # 数据来源网页截图 ├── 子文件夹2/ │ ├── data.txt/json/jsonl/parquet │ └── screenshot.png └── ...数据格式说明
- TXT格式:原始文本数据,保持原始格式
- JSON格式:结构化数据存储,便于程序化访问
- JSONL格式:流式数据处理,适合大规模数据处理管道
- Parquet格式:多模态专用格式,支持高效列式存储
🤝 社区协作与参与方式
项目工作组
MNBVC项目设立了多个专业工作组,欢迎社区成员参与:
| 工作组 | 当前人数 | 需求人数 | 主要任务 |
|---|---|---|---|
| OCR转码小组 | 5人 | 缺5人 | 文字-图片多模态语料处理 |
| 问答语料小组 | 3人 | 缺4人 | 问答项对齐与检查 |
| 语料增强小组 | 3人 | 缺2人 | 文本质量检测与补全 |
| 代码语料小组 | 待定 | 缺人 | 代码语料处理 |
| 平行语料小组 | 待定 | 缺人 | 平行语料对齐 |
如何参与
即使没有开发经验,也可以通过"语料元气弹"项目上传语料文档参与建设。对于技术贡献者:
- 基本要求:熟悉Python编程
- 技术指导:有经验丰富的开发者提供指导
- 时间投入:能够投入足够时间参与开发工作
⚠️ 重要注意事项
版权与使用规范
项目对版权问题采取了审慎态度:
"我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。"
使用建议:
- 主要用于学术研究和非商业用途
- 避免讨论具体压缩包内容
- 关注大数据量语料本身的应用价值
数据质量保障
为确保数据质量,MNBVC项目实施了多层质量控制:
- 自动化检查:格式验证、编码检测
- 人工抽样:定期抽样检查数据质量
- 社区反馈:建立问题反馈机制
- 持续改进:根据使用反馈优化处理流程
📈 技术优势与特色
数据多样性
MNBVC数据集的最大特色是其惊人的多样性:
- 文化覆盖全面:从主流文化到小众文化,甚至火星文
- 文本类型丰富:涵盖几乎所有形式的中文文本
- 时间跨度完整:从2022年12月开始持续更新
工具生态系统
项目提供了完整的工具链,从数据采集到清洗处理,再到格式转换,形成了一站式解决方案。
社区驱动
作为一个开源项目,MNBVC的发展完全依赖于社区贡献。这种模式确保了项目的持续更新和优化。
💡 最佳实践建议
对于初学者
- 从百度网盘开始:选择少量数据包进行实验
- 使用现有工具:充分利用项目提供的清洗工具
- 参与社区讨论:在遇到问题时寻求社区帮助
对于研究人员
- 建立本地处理管道:使用微力同步获取完整数据集
- 定制化处理:根据研究需求调整数据处理流程
- 贡献代码:将你的改进反馈给社区
对于企业用户
- 部署完整基础设施:建立专门的数据处理团队
- 质量监控:建立数据质量监控机制
- 合规使用:确保数据使用符合相关法律法规
🎯 未来发展方向
根据项目规划,MNBVC将持续推进以下方向:
- 数据规模扩展:从60TB向253TB目标推进
- 数据质量提升:完善清洗和验证流程
- 工具生态完善:开发更多数据处理工具
- 多模态支持:加强图文等多模态数据处理能力
- 社区协作深化:吸引更多开发者和研究者参与
📚 引用规范
使用MNBVC数据集进行研究时,请遵循以下引用规范:
@misc{mnbvc, author = {{MOP-LIWU Community} and {MNBVC Team}}, title = {MNBVC: Massive Never-ending BT Vast Chinese corpus}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/esbatmop/MNBVC}}, }🌟 结语
MNBVC中文语料库为中文AI研究提供了前所未有的数据资源。无论你是想训练自己的中文语言模型,还是进行自然语言处理研究,这个项目都能为你提供强大的数据支持。
记住,开源的力量在于社区协作。加入MNBVC社区,不仅可以使用这些宝贵的数据资源,还可以为中文AI的发展贡献自己的力量。让我们一起推动中文自然语言处理技术的进步!🚀
温馨提示:请媒体朋友们不要报道我们,让我们有更长久的时间可以收集整理数据。我们最怕捧杀了,您让我们保持低调,就是对中文算法圈做了大的贡献!
【免费下载链接】MNBVCMNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
