当前位置: 首页 > news >正文

大模型学习笔记 self attention

1.self attention和RNN CNN的区别

self attention可以理解为感受野不受限制的CNN,当数据量比较少时CNN的表现可能更好但是数据足够时可以捕获任意距离的信息。

RNN也可以建模时间序列但是只能逐个建模,随着距离变远,可能捕捉的有效信息会更少,而且只能串行计算,self attention支持并行计算。

2.self attention

attention机制允许对每个词对其他的词产生有影响有不同的重点,支持并行计算,只需要训练WQ,WK,WV。

3.表示模型和生成模型

分别代表仅仅有编码器和解码器的模型,使用llm时内部有分词和把分过的词输入的过程。

4.transformer在self attention的基础上增加了norm和加法层,需要加上原本的输入之后放入norm。

norm是计算同一特征不同维度的方差和平均值后做标准化操作。

5.使用sigmoid的想法是,使用piecewise的曲线能拟合任意曲线,使用hard sigmoid,只要足够多可以拟合任意piecewise,使用sigmoid能拟合hard sigmoid。

6.分词的四种方式

词分词,子词分词,字符分词,字节分词。

对分词决定的是三部分,一部分是选择的分词方式,第二部分是词的数目等因素,第三个就是训练分词模型的数据,不同的数据、不同的数据量训练出来的也不一样。

http://www.jsqmd.com/news/449473/

相关文章:

  • 美国真的要崩了?别被情绪骗了!它的三张底牌,至今无人能破
  • 【计算机二级MSoffice题库软件】小黑课堂下载安装教程(2026年3月最新版)
  • 本科生收藏!千笔,最受欢迎的降AI率工具
  • 博途S7 - 1200采用MODBUS_TCP与第三方设备通讯教程
  • 被告警吵醒太多次,我做了个让告警自动修复的监控工具
  • STL容器——std::vector
  • 智慧物流已成标配:2026年主流AMR搬运机器人厂家市场竞争力与行业格局全景解析 - 品牌推荐
  • 告别繁琐查询:一键整合企业工商、司法、经营数据的API方案
  • 2026全国靠谱运输车厂家挑选攻略,速来了解,自卸履带运输车/矿山履带运输车/高速除雪设备,运输车厂家直供排名 - 品牌推荐师
  • OpenClaw 安装避坑指南:工具权限配置详解
  • $emit自定义组件发数据本组件
  • 选一种颜色,出门走走
  • DRAM内存访问协议核心解析:全场景命令时序约束汇总表(内存控制器设计核心参考)
  • 英飞凌 IRS2381C Real3™ 飞行时间(ToF)图像传感器
  • 正面交锋:Gemini 3.1 Pro与GPT-5.4的技术分野与选择逻辑
  • 从加载状态看提示界面设计:提升等待体验
  • 计算机毕业设计java基于Java的自动化网站设计与实现 基于B/S架构的教学自动化管理平台设计与实现 面向师生互动的作业提交与课程测评系统开发
  • 程序化树木生成器(ThreeJS EZ-Tree 开源项目)
  • 同样画CAD,别人2小时搞定,你却卡半天?问题出在这3处
  • 全国可实时在线监控的压力变送器品牌有哪些推荐 - 工业品网
  • +混合高斯模型聚类 #机器学习+#人工智能+#特征提取+#特征融合+#特征降维+#聚类+#分类器+#无监督学习
  • 【数据集】地级市城市创业活跃度数据(2000-2024年)
  • 攻读博士学位期间研究计划书(格式模板与实例示范)——基于超快卷积光学神经网络的无记忆散射成像方法研究
  • 2026聊聊绵阳圆管立柱加工厂技术强的品牌推荐 - 工业设备
  • 腾讯QQ开放OpenClaw机器人创建通道,单个账号最多可创建5个
  • 2026年内江口碑好的动漫培训品牌机构,专业动漫培训怎么收费 - 工业品牌热点
  • PAT 乙级 1081
  • 塞那耳夹式耳机:通勤女孩的秘密武器,这副耳机真的太省心了
  • 流量怎么用——生成论视角下的注意力分配
  • 三维ToF技术:重构机器视觉维度的里程碑与工业应用前瞻