当前位置: 首页 > news >正文

Arabic Newswire English Translation Collection数据集介绍,官网编号LDC2009T22

LDC2009T22 Arabic Newswire English Translation Collection 是语言数据联盟(LDC)发布的阿拉伯语 - 英语新闻专线平行语料库,核心用于机器翻译、跨语言对齐与 NLP 模型训练,含约 100 万词级平行文本,标注与对齐规范完善。以下是结构化介绍:

基础信息

项目详情
官网编号LDC2009T22
发布机构美国宾夕法尼亚大学语言数据联盟(LDC)
发布时间2009 年
语言方向阿拉伯语(源)→英语(目标)
数据规模约 100 万词(阿拉伯语原文与对应英语译文),含数千条新闻文本对
数据来源阿拉伯语新闻专线(如法新社、路透社等机构的阿拉伯语新闻稿)
标注类型句级对齐、词级对齐、词性标注(部分版本含句法树标注)

内容与结构

  1. 文本构成
    • 阿拉伯语原文:现代标准阿拉伯语(MSA),含政治、经济、文化、体育等新闻主题,保留原始阿拉伯语书写系统(含变音符号)。
    • 英语译文:人工专业翻译,符合新闻文体规范,与原文语义一致。
  2. 数据格式
    • 原始文本:UTF-8 编码,XML / 纯文本格式存储,含文档元数据(如发布时间、来源、主题标签)。
    • 对齐文件:句对齐与词对齐数据,采用 LDC 标准对齐格式,支持跨语言 NLP 任务。
  3. 标注规范
    • 句对齐:以完整语义句为单位,确保翻译对应性。
    • 词对齐:遵循 LDC 阿拉伯语 - 英语对齐指南,处理一词多译、多词一译等现象。
    • 词性标注(可选):部分子语料含 Penn Treebank 风格词性标签,适配句法分析任务。
http://www.jsqmd.com/news/961896/

相关文章:

  • Keil C51单片机工程创建与配置全攻略:从零搭建规范开发环境
  • 别再只会用SSH了!手把手教你用Telnet在CentOS 8上快速搭建一个“复古”的远程登录环境(附Windows 10客户端开启指南)
  • 深度系统清理解决方案:彻底移除Windows预装Edge浏览器技术指南
  • BGA芯片手工拆装全流程实战:从原理到维修的精密操作指南
  • B站成分检测器终极指南:3分钟让评论区用户身份一目了然
  • 如何在移动设备上查看LikeC4架构图:移动端架构可视化终极指南
  • 从零开始:5分钟快速搭建你的UE5 AI数字人系统
  • 缺失值不是Bug是信号:AI建模前必须掌握的7层识别与7类处理
  • ThinkPad双风扇控制神器:TPFanCtrl2让你的笔记本告别噪音与高温
  • Windows 11 LTSC 24H2 终极指南:一键安装微软商店完整解决方案
  • LiteDB.Studio:3个技巧让你轻松管理嵌入式文档数据库
  • Word域代码实现将形如“图一.1”的题注批量修改为“图1.1” 批量修改(WPS更新后不存在这个问题了[破涕为笑])
  • 市面上有哪些是真正靠谱的AI智能降重工具(轻松压低AI生成疑似率)
  • Unify v3.0 前端资源包:20+现成HTML页面模板,覆盖企业官网、SaaS、咨询、招聘、博客、帮助中心等全场景
  • 深入解析SVPWM:从原理到FPGA/MCU实现的电机驱动核心技术
  • 利用快马平台快速生成在线word编辑器原型,十分钟搭建基础功能
  • 从0到1:用AudioPlaybackConnector打造无缝蓝牙音频播放环境
  • 当你爬虫被风控了——企业级反爬的层层防御揭秘
  • 告别网盘限速:九大平台直链下载助手完整使用教程
  • LangChain与LangGraph核心区别解析
  • 模拟芯片设计四重境界:从电路直觉到系统思维的工程师成长之路
  • 在Windows上免费使用Switch Joy-Con控制器玩PC游戏的终极指南
  • 如何重构知识连接方式:从碎片到生态系统的创新方法指南
  • 基于BQ24070的锂电池充电管理电路设计与动态路径管理实践
  • 英雄联盟R3nzSkin国服版:免费体验所有皮肤的完整指南
  • HTTP1.1、HTTP2、HTTP3
  • 11-4. 机智云APP怎么安装
  • 新手福音:通过codex++在快马平台生成带注释代码,轻松入门python数据处理
  • 婴儿推车推荐——带宝宝坐飞机,哪款婴儿推车可以带上飞机?|登机全流程避坑清单 - 知行集录
  • Visio虚线框复制到Word变实线?工程师亲测3种无损迁移方案