当前位置: 首页 > news >正文

Python自然语言处理的技术未来与架构演进

Python自然语言处理的未来(主题演讲,PyCon哥伦比亚 2020)

视频:https://www.youtube.com/watch?v=YDAgQO1DX0Q
Twitter 主题讨论:https://twitter.com/_inesmontani/status/1226501968832671744

核心技术组件

SPACY- 用于工业级自然语言处理的开源库,拥有超过 100,000 名用户。

PRODIGY- 为机器学习模型创建训练数据的注释工具,拥有超过 3000 名用户。

THINC- 用于通过函数式类型检查API组合模型的轻量级深度学习库(新版本)。

为什么选择Python?

Python 因其广泛的适用性而持续增长。

  • C扩展
  • 动态语言
  • 通用目的

相较于专门的“AI语言”,Python更适合开发者扩展技能。它是一个通用目的的语言。

人才结构:通才与专才

通才与专才是互补的。

技能形状:从T型(广度与深度)到树型(多领域广度与深度)。

你的产出反映了你的组织结构:通才与专才互补,形成树型技能结构。

处理流水线

处理流水线包括:

  • 词性标注器
  • 命名实体识别器
  • 句法依存关系解析器

输入:文本 -> 文档 -> 处理后的文档(例如,识别出“人物”实体)。

迁移学习

任务特定模型 + 文本 + 通用语言模型 = 迁移学习。

Transformer模型:准确且可重用的子网络,在不同的工作流程中(如在张量级别操作)都能发挥作用。

面临的技术问题

问题 #1:本地某中心初创公司的代码库“有点难读”

一位高级工程师面对代码array[:, ..., :4]发出疑问:“这到底是什么意思?”

核心挑战:维度混淆。
示例:判断张量是2维还是1维。

类型错误示例
Y: Floats3d不兼容的返回值类型(得到“Tuple[Floats3d, Callable[[Any], Any]]”,预期是“Tuple[Floats1d, Callable[…, Any]]”)。
Relu: Relu层输出类型为 (thinc.types.Floats2d),但下一层期望输入为 (thinc.types.Ragged)。

问题 #2:配置管理

模型代码、超参数、权重和其他设置通常与机器学习库紧密耦合。
解决方案方向指向THINC.AI

问题 #3:构建一个包含价格和股票代码的公司收购数据库

需求:预测包含价格和股票代码的公司收购。
流程步骤:

  1. 文本分类器:判断是否收购新闻。
  2. 实体识别器:识别收购方、被收购方。
  3. 实体链接器:链接到知识库。
  4. 属性查找:查找价格、股票代码。
  5. 货币标准化器:统一货币单位。

问题 #4:实践与理论的差距

理论:数据 -> 代码。
实践:代码 -> 数据。

标注不一致示例:“Pope Francis visits U.S.” 中,“Pope Francis”应该被标注为一个人物实体(PER)还是两个?

语义相似度挑战:“I love cats.” 和 “I hate cats.” 是相似还是不同?

迭代式数据开发方法

解决方案方向指向PRODIGY.AI

典型的机器学习项目在投入(训练数据大小、时间、实验)与效果(准确性、质量)的关系中,常经历几个阶段:

  1. 希望之山:初期快速提升。
  2. 不确定性沼泽:进展缓慢,效果提升不明显。
  3. 沮丧高原:投入大量资源,但效果停滞。

未来的项目应采用迭代式开发,创造“不确定性稍减的湿地”,明确设置停止点,最终通向“成功的草地”。

未来展望

  • 参与者(WHO):大量开发者,包括通才和专才。
  • 技术内容(WHAT):迁移学习与组件化流水线。
  • 方法论(HOW):迭代式的内部数据开发流程。
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
http://www.jsqmd.com/news/263616/

相关文章:

  • 突破长序列预测瓶颈:新一代高效 Transformer 架构全面提速
  • 亲测好用8个AI论文网站,专科生搞定毕业论文格式规范!
  • 6大学术平台AI工具解析:智能改写提升论文语言专业性
  • 学长亲荐8个一键生成论文工具,专科生搞定毕业论文!
  • 用 SPD-Conv 重塑 YOLOv8:小目标检测精度大幅提升的完整实战指南
  • LLM基因定制饮食健康效果翻倍
  • AI智能宠物监测系统,实时识别+行为分析
  • 小目标检测难题终结:YOLOv11 + 注意力机制,精度直接拉满
  • 中小企业必看!RFID资产管理系统,不用大投入也能高效管资产
  • 从0到实战:基于YOLOv5/8/10的智能交通车辆违章行为检测系统
  • AI助力论文质量提升:6个平台对比与自动润色方案
  • 让遥感小目标不再“隐身”:YOLOv8 融合方案全流程解析
  • 解决YOLOv11小目标与复杂场景难题:Mamba-MLLA注意力机制集成指南
  • 基于 OHEM 的困难样本挖掘策略,有效缓解样本失配并提升 mIoU
  • 互联网大厂Java面试场景:从Spring到微服务的技术探讨
  • 水下生物水下动物海洋动物检测数据集VOC+YOLO格式9333张10类别
  • 【文献管理工具EndNote】实用工具推荐之EndNote 2025 详细图文完全指南:专业文献管理的终极解决方案
  • 淘宝 API 生态入门:以商品详情接口为例的平台集成指南
  • Mamba-YOLOv8 全栈解析:新一代状态空间检测模型,代码与部署方案已整理好
  • 开源吐槽大会:让代码更完美的秘密武器
  • Week 33: 量子深度学习入门:参数化量子电路与混合模型构建
  • YOLO26创新改进 | 独家创新首发、Neck改进篇 | 来自CVPR 2025 暗光增强 | 引入LCA交叉注意力机制和IEL特征增强模块,助力YOLO26低光,暗光检测高效涨点!
  • YOLO26创新改进 | 全网独家创新、涨点改进篇 | ACM 2025 顶会 | 引入AAFM自适应对齐频率模块, 实现跨范式特征的深层对齐与融合, 在八个基准数据集上取得SOTA性能!
  • YOLOv13新思路:SFHF + 傅里叶频域特征融合,mAP提升7.66%的完整方案
  • YOLOv8精度不够?这一套IoU改进方案,让目标检测框直接“贴边”,毕设效果拉满
  • YOLO26创新改进 | 全网独家,注意力创新改进篇 | AAAI 2025 | 引入DTAB和GCSA创新点,通过重新设计通道和空间自注意力机制,助力YOLO26有效涨点
  • 程序员必看:从零开始如何进入大模型产品岗(附真实案例与面试经验)
  • 6个论文平台AI分析:智能改写提升学术专业性
  • YOLO26涨点改进 | 全网独家复现,注意力创新改进篇 | ICCV 2025 | 引入MSA多尺度注意力,多尺度特征有助于全局感知和增强局部细节、助力小目标检测、遥感小目标检测、图像分割有效涨点
  • 浙大权威团队《大模型基础》教材,小白入门必看!