Chinese Gigaword Fifth Edition数据集介绍,官网编号LDC2011T13
Chinese Gigaword Fifth Edition(LDC2011T13)是 LDC 发布的超大规模中文新闻文本语料库,是中文 NLP 领域最经典、最常用的基础训练数据之一。
一、核心规模与内容
- 总字符数:约30.9 亿汉字
- 文档来源:8 家权威中文新闻通讯社 / 媒体,覆盖简体 + 繁体
- 简体(7 家):新华社(Xinhua News Agency)、人民日报(People’s Daily)、中国新闻社(China News Service)、中央人民广播电台(China National Radio)、国际在线(CRI Online)、上海文广(SMG)、联合早报(Lianhe Zaobao)
- 繁体(1 家):中央通讯社(Central News Agency, Taiwan)
- 时间跨度:收录 1994–2010 年新闻,第五版新增 2009–2010 年数据
- 文本类型:纯新闻文本(无标注),含标题、正文、电头、日期等标准新闻结构
NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg
