当前位置: 首页 > news >正文

Arabic News Translation Text Part 1数据集介绍,官网编号LDC2004T15

Arabic News Translation Text Part 1(LDC2004T15)是 LDC 发布的阿拉伯语 - 英语新闻翻译平行文本语料库,以阿拉伯语新闻专线文本为源语、人工翻译的英语文本为目标语,提供句级对齐的高质量双语文本,适配机器翻译、双语对齐、阿拉伯语 NLP 模型训练等任务,是早期阿拉伯语 - 英语翻译资源的重要基准。以下是详细介绍:


基本信息

项目详情
发布机构LDC(Linguistic Data Consortium)
发布时间2004 年
数据集编号LDC2004T15
数据规模约 18,000 句阿拉伯语新闻文本 + 对应人工翻译英语句,覆盖政治、经济、国际事件等新闻主题
文本类型阿拉伯语新闻专线文本(Newswire)
标注体系句级对齐、人工翻译质量控制(符合 LDC 阿拉伯语 - 英语翻译规范)
应用场景机器翻译(阿拉伯语 - 英语)模型训练与评测、双语词典构建、跨语言句法分析、命名实体对齐
配套资源翻译规范文档、句对齐工具、文本格式转换脚本
http://www.jsqmd.com/news/959469/

相关文章:

  • 用Arduino和TDS传感器DIY一个家庭水质监测仪(附ESP32/ESP8266完整代码)
  • SpringBoot快速搭建登录注册模块(含Thymeleaf页面+H2数据库+完整接口)
  • 从学生到工程师:聊聊我为什么从AD转向PADS,以及Allegro到底值不值得学
  • 医院、学校、政府单位的网管看过来:一套“交钥匙”等保拓扑,照着部署就能过测评
  • SPSS交叉表实战:5分钟搞定疾病相对危险度计算(附数据准备避坑指南)
  • 周口专业的玻璃门定制厂家怎么选,长虹玻璃隔断/商用隔断铝材/玻璃隔断/轻奢客厅玻璃隔断,玻璃门定制厂家怎么选 - 品牌推荐师
  • 生产级AI智能体设计:场景化组装与决策灰度带实践
  • 二刷hot100-78.子集
  • 2026年太原经济纠纷律师推荐榜单:5位实战经验丰富律师精选 - 本地品牌推荐
  • FastAPI+Celery+Pg-vector构建LLM SaaS生产级架构
  • 本地大模型服务框架:vLLM+TGI实战部署与量化调优
  • BERT中文微调实战:从Tokenizer陷阱到分层调参的工业级避坑指南
  • BERT原理与实战:双向Transformer预训练范式详解
  • 猫抓Cat-Catch终极实战指南:浏览器资源嗅探与高效下载的完整解决方案
  • p-Laplacian算子在完美导电问题中的非线性建模与应用
  • Middle East Technical University Turkish Microphone Speech v 1.0数据集介绍,官网编号LDC2006S33
  • C++ Boost.Bloom 详解:布隆过滤器原理与实战应用
  • OpenMV视觉定位+STM32双轮差速PID循迹小车完整工程包
  • 2026年比较好的海南高品质铝艺大门/海南铝艺大门定制/海南现货铝艺大门精选推荐公司 - 行业平台推荐
  • Rust 结构体
  • 南通璞声汽车音响改装告诉你怎么选改装店
  • 魔方派开发板烧录无法进行,报错:QSaharaServer.exe ... -s ...\prog_firehose_ddr.elf;ERR : Download Firehose e...如何解决?
  • 机器学习模型生产化落地:从Jupyter到Kubernetes的工程实践
  • 发现ExifToolGUI:如何将照片元数据管理从繁琐命令行变为可视化艺术
  • 模板驱动型文档自动化:告别重复填表,实现高保真批量生成
  • Synopsys ICC 2024版实战:高效查询与调试命令手册(含help/printvar/man技巧)
  • 彩钢活动房厂家实测排行:西宁彩钢岩棉夹心板厂/西宁彩钢岩棉夹心板厂家/西宁彩钢岩棉板/性能合规与场景适配对比 - 优质品牌商家
  • NumPy性能优化九条铁律:向量化、内存布局与广播机制实战
  • Sqribble:基于规则引擎的云原生文档操作系统
  • 手把手教你用ISO12233测试卡和Imatest,搞定安防摄像头出厂前的分辨率验收