当前位置：首页 > news >正文

MNBVC：重塑中文AI数据生态的突破性基础设施

news 2026/7/17 11:23:16

MNBVC：重塑中文AI数据生态的突破性基础设施

【免费下载链接】MNBVCMNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。项目地址: https://gitcode.com/gh_mirrors/mn/MNBVC

在大模型技术激烈竞争的今天，数据已成为人工智能发展的核心战略资源。MNBVC（Massive Never-ending BT Vast Chinese corpus）超大规模中文语料集项目，正以革命性的方式重新定义中文AI的数据基础设施，为中国在人工智能领域的自主创新奠定坚实基础。

中文AI的“数据鸿沟”挑战

当前国际AI技术竞争已进入白热化阶段，以ChatGPT/GPT-3.5为代表的大语言模型与传统模型之间的差距，被业内专家形容为"导弹与弓箭的区别"。国际顶尖学术机构和产业实验室已全面拥抱大模型技术，而中文AI领域面临的最大挑战正是高质量训练数据的严重匮乏。

MNBVC项目初衷：应对国际AI技术竞争，构建自主可控的中文数据底座

传统中文语料库往往局限于主流文化内容，缺乏对多元语言形态和细分领域的覆盖。这种局限性直接制约了中文大模型在理解能力、文化适应性和应用广度上的突破。MNBVC项目的诞生，正是为了填补这一关键的数据空白。

技术创新：从23.8%到100%的颠覆性路径

数据规模与多样性突破

MNBVC项目设定了对标ChatGPT训练数据规模的宏伟目标——40T数据量。截至目前，项目已完成超过60732GB的数据积累，占总体目标的23.8%。更为重要的是，这些数据覆盖了中文互联网的完整生态：

主流文化内容：新闻、论文、书籍、杂志等传统文本
小众文化语料：论坛讨论、社交媒体内容、网络文学
特殊语言形态：火星文、网络流行语、方言表达
多模态数据：图文对应内容、PDF文档、代码仓库

数据清洗与标准化革命

MNBVC团队开发了一系列创新工具链，实现了中文语料处理的自动化与标准化：

编码检测优化：charset_mnbvc工具提供更快速准确的中文编码识别
去重与质量筛选：deduplication_mnbvc实现高效段落级去重
格式统一处理：DataCheck_MNBVC确保数据格式一致性
多模态解析：pdf_meta_data_mnbvc等工具支持复杂文档处理

数据收集策略创新

项目采用分层渐进的数据收集策略，通过dupan/README.md记录的数据包显示，从2022年12月到2024年期间，数据包规模呈现指数级增长：

早期阶段（2022.12-2023.01）：单个压缩包4-15GB，原始数据13-83GB
扩展阶段（2023.02-2023.03）：单个压缩包2-15GB，原始数据34-83GB
规模化阶段（2023.04）：单个压缩包7-15GB，原始数据38-74GB

生态系统构建：从数据到工具的完整解决方案

开源工具矩阵

MNBVC不仅提供数据，更构建了完整的数据处理生态系统：

# 代码仓库爬虫工具链 github_downloader_mnbvc # GitHub代码仓库下载 notabug_download_mnbvc # Notabug代码仓库爬取 bitbucket_crawl_mnbvc # Bitbucket代码仓库爬取 # 专业领域清洗工具 WikiHowQAExtractor-mnbvc # WikiHow问答数据清洗 Math_mnbvc # 数学题目数据处理 MNBVC-judgment # 裁判文书网数据清洗 tianya-mnbvc # 天涯论坛数据处理