当前位置: 首页 > news >正文

OpenNRE:清华开源的实体关系抽取工具包

文章目录

  • OpenNRE:清华开源的实体关系抽取工具包
    • 1、关系抽取解决什么问题
    • 2、OpenNRE 做了什么
    • 3、快速上手
    • 4、训练自己的模型
    • 5、适合谁用

OpenNRE:清华开源的实体关系抽取工具包

OpenNRE 在 GitHub 上拿到了 4.4K Star。

这是清华大学 NLP 组推出的开源关系抽取工具包,属于 OpenSKL 项目的子项目。核心任务是从非结构化文本中提取实体间的语义关系,比如从"乔布斯创立了苹果公司"这句话中抽取出(乔布斯,创始人,苹果公司)这样的三元组。

1、关系抽取解决什么问题

关系抽取是知识图谱自动构建的核心环节。自然语言里充满了实体和它们之间的关系,“马云是阿里巴巴的创始人”、“北京是中国的首都”,这些事实散落在新闻、百科、论文里。关系抽取模型的工作就是识别出句子中的实体,并判断它们之间存在什么类型的语义关联。

积累起来的三元组构成知识网络,支撑问答系统、推荐引擎、搜索引擎等下游应用。没有关系抽取,机器获取的知识只是一堆孤立的名词。

2、OpenNRE 做了什么

关系抽取的研究门槛不低。不同论文用不同的代码框架、数据格式和评估指标,复现一篇论文的实验经常要花几周。

OpenNRE 把主流的实体关系抽取模型统一到一个框架里。输入输出接口标准化,模型结构模块化,切换编码器或注意力机制只需要改几行配置。支持监督学习和远程监督两种设定,兼容 CNN 网络和 BERT 预训练语言模型。

在 NYT10 数据集上,CNN-ATT 模型跑出了 0.333 的 AUC 和 0.397 的 F1 值,比原论文发表的结果略高。

3、快速上手

安装是标准流程,clone 仓库后 pip 装依赖,再跑 setup.py。数据和预训练文件需要单独下载,benchmark 和 pretrain 目录下有对应的下载脚本。

OpenNRE 提供了几个开箱即用的预训练模型:

importopennre model=opennre.get_model('wiki80_cnn_softmax')model.infer({'text':'He was the son of Máel Dúin...','h':{'pos':(18,46)},'t':{'pos':(78,91)}})# ('father', 0.5108704566955566)

首次调用会自动下载模型和数据,之后直接 infer 即可。模型返回关系类型和置信度分数。不需要理解注意力机制的数学推导,几行代码就能跑起来一个可用的关系抽取模型。

目前官方提供 5 个预训练模型,覆盖 wiki80 和 TACRED 两个数据集,编码器可选 CNN 或 BERT。

4、训练自己的模型

如果有自己的数据集和关系类别定义,example 目录提供了训练脚本。用 PCNN-ATT 在 NYT10 上训练一个 bag-level 模型:

python example/train_bag_cnn.py\--metricauc\--datasetnyt10m\--batch_size160\--lr0.1\--max_epoch100\--encoderpcnn\--aggratt

换成 BERT 编码器同样只需调整几行参数,命令行可灵活配置超参,适合快速实验迭代。

5、适合谁用

NLP 研究者可以用它做关系抽取的 baseline 实验,不必从零造轮子。知识图谱方向的开发者可以直接把预训练模型接入生产线。想入门关系抽取的学生也能通过清晰的代码结构和配套文档快速动手。

OpenNRE 是 OpenSKL 项目的一部分,同系列还有做知识图谱嵌入的 OpenKE、做预训练语言模型增强的 ERNIE、做图节点表示的 OpenNE。这几个工具配合使用,可以覆盖知识图谱从构建到应用的完整链路。

E、做预训练语言模型增强的 ERNIE、做图节点表示的 OpenNE。这几个工具配合使用,可以覆盖知识图谱从构建到应用的完整链路。

http://www.jsqmd.com/news/1125604/

相关文章:

  • SRS 4.0 HTTP回调实战:Spring Boot 2.3.7 实现7种事件鉴权与日志记录
  • sklearn 1.4+ PDP/ICE 图实战:3步代码从原理到特征筛选决策
  • 2026年6月好用的CNC加工服务商
  • eclipse ditto 学习笔记
  • AI替代人力是假象?微软派6000人驻场,Ford召回老工程师,人力价值凸显!
  • Fable 5复活引争议!“内心戏”暴露,AI意识大讨论升温!
  • 斯坦福CS231n计算机视觉课程:从理论到Kaggle实战的完整指南
  • 5分钟快速找回QQ空间全部历史说说的终极指南:GetQzonehistory完整教程
  • Windows系统下Aider完整安装、配置与实战使用教程
  • 地平线6 单机+联机版 全DLC车辆包 附存档免肝解锁
  • java封装好的线程池
  • 完美搞定微博,2026 批量下载微博内容/图片/视频,导出word和pdf,微博内容发布时间链接/点赞/评论/转发等数据导出excel
  • 【Qwt 7.0 系列】总体架构解析 —— 从单体到三库模块化的演进
  • Codex接入DeepSeek模型:从原理到工程化部署的完整指南
  • LangChain:139K Star 的 Agent 工程平台
  • WebTTY:用 WebRTC 直接共享终端,不用搭服务器
  • 模型工厂、三层容错装饰器与JWT认证:从基础设施到可用服务
  • AI技能管理新范式:告别手动复制,实现提示词工程化与资产化
  • Agent 任务中断恢复:状态机比聊天记录更可靠
  • 按键盘Num Lock键会有声音,而且没地方关
  • ubuntu 26.04 k8s 1.36 ceph
  • 纯净系统GH0镜像xp win7 win10 win11 自动还原自动安装 集成标准版驱动 纯净安装工具+详细安装教程
  • 【共创季稿事节】画板应用:ArkTS 中的触摸事件处理
  • 手动拍单容易违规?抖店一键下单、密文下单自动拍单售后合规采购发货模式详解
  • 技术娱乐化时代,AI创业者如何用IP构建第二曲线
  • Claude Code 大规模封号,美团免费提供 GLM-5.2
  • 破界悦己:WATERFLY 如何重新定义当代出行生活
  • 2026 最新 ChatGPT Plus / Pro 订阅教程:国内如何开通会员?详细图文指南
  • Dify vs. Coze:从SaaS到私有化部署,掌握AI应用开发自主权
  • 解锁开题高效写作新模式,paperxie助力学子轻松通过论文开题