当前位置: 首页 > news >正文

2026.1.19总结

今天继续了解nlp的理论部分,
模块二:传统方法篇 - 从规则到统计
第一部分:语言处理流水线
想象你要教计算机读文章,首先要教它识字断句。
文本预处理是清洗和准备数据。包括:去掉HTML标签、特殊符号;分词——把句子切成单词或字(中文更复杂);去除停用词如“的”、“了”这些高频但信息少的词;词干还原——把“running”、“ran”、“runs”都还原为“run”。
语言学基础让你理解语言结构。词性标注:识别名词、动词、形容词;句法分析:理解句子结构,哪个是主语、哪个是宾语;命名实体识别:找出人名、地名、机构名。
第二部分:文本表示方法
计算机只懂数字,如何把文字变成数字?
离散表示像建立词表。词袋模型:统计每个词出现的次数,忽略顺序。“我喜欢苹果”和“苹果喜欢我”会被认为一样。TF-IDF:不仅看出现次数,还要看重要性。比如“的”在很多文档都出现,权重就低;“神经网络”只在少数文档出现,权重就高。
分布式表示是革命性的进步。Word2Vec让相似含义的词在向量空间靠近:“国王-男人+女人≈女王”。GloVe利用全局统计信息。FastText考虑子词信息,能处理未登录词。
经典任务实践:用TF-IDF+朴素贝叶斯做新闻分类;用Word2Vec找相似词;用LDA发现文本主题。

http://www.jsqmd.com/news/280693/

相关文章:

  • 2026医学教育白皮书发布:护考软件红黑榜揭晓,易小考高居榜首!
  • 2026.1.18总结
  • CSS 新特性总结(附:var() 函数详解)
  • 计算机Java毕设实战-基于Java的隧道云视频监控管理信息平台设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Flow-Planner疑问汇总
  • Java毕设项目:基于springboot的隧道云视频监控管理信息平台设计与实现(源码+文档,讲解、调试运行,定制等)
  • STM32智能大棚浇花花盆
  • 知光项目用户资料模块
  • MySQL:更新语句执行流程详解
  • STM32心率血氧手环(可报警)
  • [langchain 内部数据传递层级]
  • STM32智能宠物喂食
  • 2026年选择敏捷咨询机构:从“工具应用”到“价值落地”的转型关键
  • 论文降AI率必备!5款工具横向测评,到底哪款能帮你将AIGC率降低80%以上
  • 2026年马年零食大礼盒推荐Top5:从年味到健康的“不踩雷”选型指南
  • Java计算机毕设之基于Java+springboot的隧道云视频监控管理信息平台设计与实现(完整前后端代码+说明文档+LW,调试定制等)
  • [Unreal shader]深度缓冲重建世界坐标
  • logging库使用教程
  • 【毕业设计】基于springboot的隧道云视频监控管理信息平台设计与实现(源码+文档+远程调试,全bao定制等)
  • SpringBoot:封装 starter
  • 【课程设计/毕业设计】基于springboot的隧道云视频监控管理信息平台设计与实现隧道内事故、火灾、车辆滞留等问题监察【附源码、数据库、万字文档】
  • 滴滴 wsgsig secdd-challenge
  • RabbitMQ 在大数据领域的故障排查与解决方案
  • Linux 内核漏洞提权
  • 连接 AI 的隐形纽带:深度解构 MCP 传输层——从 Stdio 到 SSE 的实战抉择与架构差异
  • 计算机毕业设计springboot基于农科所农作物信息管理系统的设计与实现 基于SpringBoot的农业科研院所作物数据智慧管理平台的设计与实现面向农科机构的SpringBoot作物全生命周期
  • 测试转网络安全如何弯道超车?
  • Java计算机毕设之基于springboot的智慧医疗网上预约系统智慧医疗服务-智慧医疗服务平台(完整前后端代码+说明文档+LW,调试定制等)
  • 微服务架构演进实战 从单体到微服务的拆分原则与DDD入门
  • python mqgg 发送 json 文件