当前位置: 首页 > news >正文

Chinese Gigaword Fifth Edition数据集介绍,官网编号LDC2011T13

Chinese Gigaword Fifth Edition(LDC2011T13)是 LDC 发布的超大规模中文新闻文本语料库,是中文 NLP 领域最经典、最常用的基础训练数据之一。

一、核心规模与内容

  • 总字符数:约30.9 亿汉字
  • 文档来源:8 家权威中文新闻通讯社 / 媒体,覆盖简体 + 繁体
    • 简体(7 家):新华社(Xinhua News Agency)、人民日报(People’s Daily)、中国新闻社(China News Service)、中央人民广播电台(China National Radio)、国际在线(CRI Online)、上海文广(SMG)、联合早报(Lianhe Zaobao)
    • 繁体(1 家):中央通讯社(Central News Agency, Taiwan)
  • 时间跨度:收录 1994–2010 年新闻,第五版新增 2009–2010 年数据
  • 文本类型:纯新闻文本(无标注),含标题、正文、电头、日期等标准新闻结构

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

http://www.jsqmd.com/news/430805/

相关文章:

  • WebPShop:解决Photoshop WebP格式兼容难题——从技术原理到场景落地实践
  • 2026年口碑好的厕所马桶消毒液/衣物消毒液厂家推荐及采购指南 - 品牌宣传支持者
  • 如何用AnuPpuccin打造独一无二的笔记空间?个性化美化方案全解析
  • NIST/USF Evaluation Resources for the VACE Program - Meeting Data Training Set ,官网编号LDC2011V01、11V02
  • 2026年无锡民办高中推荐榜单:新吴区私立高中与综合高中实力解析,专业师资与升学优势深度测评 - 品牌企业推荐师(官方)
  • 抖音视频高效下载与管理:从机械操作到智能工作流的变革
  • tcc-g15:开源散热控制工具如何释放Dell G15笔记本的全部性能
  • NIST/USF Evaluation Resources for the VACE Program - Meeting Data Test Set,官网编号LDC2011V03、LDC2011V04
  • 深入理解 Python 的 collections 模块:从基础到高级应用
  • 如何高效获取教育资源?这款工具让教材下载效率提升300%
  • mybatis相关
  • OBS-Multi-RTMP:多平台直播推流的一站式解决方案
  • 4步解锁2.5G网卡潜能:跨平台虚拟化环境驱动优化指南
  • 苏果超市卡快捷回收线上渠道指南:极速回款,放心选择! - 团团收购物卡回收
  • 2026 干湿联合冷却塔 全钢开式冷却塔厂家排名及采购推荐 - 深度智识库
  • 收藏!AI大模型风口已至,小白程序员必看:为什么你没吃到红利?(附2026免费学习资料)
  • Bypass Paywalls Clean使用指南:解决访问限制的开源工具全攻略
  • jd-happy效率工具:京东商品抢购自动化解决方案
  • 2026年口碑好的医院稳压器租赁维修/三相补偿式电力稳压器租赁维修实力工厂怎么选 - 品牌宣传支持者
  • WeMod-Patcher:3大突破实现永久解锁高级游戏修改功能
  • 大模型后训练全解析:SFT、RL、PPO、Lora、Adapter,一文读懂并收藏!
  • Mermaid Live Editor:重新定义文本驱动的图表创作体验
  • 如何通过线上渠道实现苏果超市卡快捷回收?专业攻略来了! - 团团收购物卡回收
  • 百度云墙在网络层拦截了 Lets Encrypt 验证服务器的 IP - Fmaj
  • OBS NDI插件技术指南:构建无界视频传输系统
  • 从“体力活”到“精细化”:教培私域运营的下半场,拼的是什么?
  • 永辉超市购物卡回收平台推荐 - 团团收购物卡回收
  • AI一键生成论文工具测评!7款AI写论文工具排行榜,从选题到答辩一文搞定! - 掌桥科研-AI论文写作
  • 掌握QMK Toolbox:面向机械键盘爱好者的固件定制指南
  • Commitizen 交互式提交深度解析