当前位置: 首页 > news >正文

实战NLP解决方案设计

实战NLP解决方案设计

Ines Montani

2015年初,spaCy首次发布。它是一个用于工业级自然语言处理的开源库,专注于生产环境的使用。

当前统计数据:

  • 总下载量超过1700万次
  • 在GitHub上获得超过1.6万颗星
  • 拥有400多位贡献者
  • 有80多个扩展包

2016年末,一家专注于AI开发者工具的新公司成立。

  • 在最初的6个月里,通过咨询业务实现自举
  • 自2017年起,通过软件销售获得资金支持
  • 团队分布各地,以柏林为中心

当前统计数据:

  • 8名团队成员
  • 100%独立且盈利

2017年末,第一个商业产品发布。它是一个现代化的标注工具,完全可以用Python脚本控制。

当前统计数据:

  • 超过4000名用户,包括500多家公司
  • 超过1600名论坛成员

即将发布:

  • spaCy v2.3:支持中文、日语等多种语言的模型
  • spaCy v2.3:基于Transformer的流程,可使用任何库构建自定义模型,以及新的训练工作流
  • spaCy v3.0:基于Transformer的流程,可使用任何库构建自定义模型,以及新的训练工作流
  • 某工具 v1.10:支持依赖与关系标注、音频与视频标注,以及许多新功能
  • 某工具 Teams:可在你的云环境中管理大型标注项目

NLP项目像创业公司:失败率很高

如何最大化你项目的失败风险?

  1. 想象:决定你的应用应该做什么。要有雄心!没有人会说“呃,这能行吗?”就改变了世界。
  2. 预测:计算出你需要的准确度。如果你不确定,就说90%。
  3. 外包:付钱让别人收集你的数据。仔细考虑你的准确度要求,然后索要1万行数据。
  4. 连接:实现你的网络。这是有趣的部分!张量化你所有的流,下降每一个梯度!
  5. 交付:把所有东西整合起来。如果它不工作,也许可以责怪实习生?

失败令人沮丧。

准确度估计、训练与评估、已标注数据、标注方案、产品愿景

这是一个困难的“先有鸡还是先有蛋”的问题。

你需要迭代你的代码和你的数据。

需求示例

#1
我们正在构建一个基于新闻报道的犯罪数据库。我们想要标注以下内容:

  • 受害者姓名
  • 犯罪者姓名
  • 犯罪地点
  • 犯罪日期
  • 逮捕日期

#2
我们正在将金融新闻中关于公司销售的数据添加到我们的内部数据库,以便将其连接到我们的分析系统。我们需要提取:

  • 买方(官方公司名称)及其股票代码
  • 被收购公司及其股票代码
  • 销售价格及货币

(使用pytorch预测包含价格和股票代码的公司收购案例。没有结果。)

案例分析:“某中心收购软件开发平台GitHub,价格为75亿美元”

现实并非端到端的预测问题。

一条文本的处理流程可以包括:

  1. 文本分类器
  2. 实体识别器
  3. 实体链接器
  4. 属性查找
  5. 货币标准化器

核心观点

#1
实用NLP的一大优点是:你可以选择让问题变得更简单,让解决方案成本更低。

#2
最有趣的问题通常非常具体,也需要特定的解决方案。这正是它们的价值所在。

#3
迁移学习意味着我们不再总是需要“大数据”。但我们仍然需要一些数据。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/183180/

相关文章:

  • AI健康智慧体检管理系统:用技术把体检变成“私人健康指挥中心”
  • Sonic模型License协议解读:可商用但需署名
  • Sonic模型License协议解读:可商用但需署名
  • qt AbstractTableModel
  • 迪杰斯特拉(Dijkstra)算法和弗洛伊德(Floyd)算法是图论中最经典的两种最短路径算法
  • AI试验数据综合分析管理系统:数据价值的技术解码器
  • AWS WAF Rate Limit 与 Shield DDoS 防护最佳实践
  • Springboot基于Web的绿色环保网站0z5t9(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 032.有序表之AVL树
  • 微PE官网启动盘制作+Sonic环境部署一体化方案
  • 信号与系统综述
  • Sonic数字人前端表格展示可用VXETable官方组件实现
  • HuggingFace镜像网站对比:哪家更适合拉取VoxCPM-1.5-TTS-WEB-UI?
  • 1.2.1 - f
  • 删除具有大量部署的cloudflare pages项目
  • 文本转语音新突破:VoxCPM-1.5实现高效标记率6.25Hz
  • 20260102 之所思 - 人生如梦
  • UltraISO制作U盘启动盘同时部署VoxCPM-1.5-TTS-WEB-UI运行环境
  • 输电杆塔绝缘子红外测温图像检测数据集VOC+YOLO格式420张1类别
  • Blender动画协作?为3D角色赋予真实声音
  • Sonic支持1080P输出?关键在于min_resolution设为1024
  • 导师推荐!8款AI论文软件测评:本科生写论文还能这么快
  • 水务集团停水通知自动化语音外呼系统
  • 对比主流TTS模型:VoxCPM-1.5的优势与性能表现
  • 知识库建设:沉淀常见Sonic使用问题的答案
  • VoxCPM-1.5-TTS-WEB-UI与Git Commit版本控制协同工作流程
  • 公交移动电视:车载屏幕配合VoxCPM-1.5-TTS-WEB-UI播报站点周边信息
  • Python基于改进粒子群IPSO与LSTM的短期电力负荷预测研究
  • 深入解析:18、论文阅读:AOD-Net:一体化除雾网络
  • 实用指南:AI智能分析高空抛物算法方案