当前位置: 首页 > news >正文

对于transformer的理解

Transformer就是用attention做动态路由信息的序列建模。它靠Q/k/v建立关联,靠position embedding补充顺序信息,靠多头增强表达能力。

  • 核心机制是自注意力机制,即每个token先映射为三组向量:Q,K,V,Q代表我想要什么信息,K代表我能提供什么信息,V代表具体内容,当前的token会用自己的Q去和所有token的k算相似度,得到一个注意力分数矩阵,用softmax进行归一化后与自己的value进行加权求和,得到新的token表示
  • 多头注意力机制,就是让模型从多个不同的视角看关系,比如不同的head可以关注不同的信息:比如语义关联,指代关系,句法结构等,最后把多个head拼接起来使得表达能力更强。
  • 位置编码:因为attention本身不带顺序,所以需要position encoding进行位置表示,告诉谁在前谁在后。
  • 结构上分为encoder-only适合理解,decoder-only用于生成,encoder-decoder适用于输入到输出的变换任务。

对于agent而言,transformer在我看来,价值不仅仅体现在文本生成,而是提供一种强的上下文建模能力,agent的规划,工具调用,对话状态位置,从检索结果抽取关键信息本质都依赖模型在长上下文做相关性判断和条件生成。

http://www.jsqmd.com/news/540672/

相关文章:

  • 贵阳美容培训怎么选?从择校标准到机构特点,这份指南请收好 - 品牌测评鉴赏家
  • 计算机毕业设计springboot月子中心健康管理系统 基于SpringBoot的母婴护理中心智能管理平台 产后康复中心信息化服务系统
  • 思源宋体终极指南:免费商用中文字体解决方案从入门到精通
  • 革新性英雄联盟效率工具:League-Toolkit全方位游戏辅助解决方案
  • League-Toolkit全流程指南与实战策略
  • 从KR4到KP4:深入解析高速以太网FEC标准演进与RS编码实战
  • MySQL 事务、隔离级别与锁机制
  • Unity游戏翻译神器XUnity.AutoTranslator全攻略:从入门到精通
  • Steam挂卡终极指南:5分钟学会用Idle Master自动获取所有交易卡片
  • 贵阳美容培训学校怎么选?实地探访3家正规机构,分享我的择校观察 - 品牌测评鉴赏家
  • Pixel Dream Workshop 自动化测试实践:构建稳健的AI图像生成软件测试流水线
  • Joy-Con Toolkit:让Switch玩家掌控设备的开源管理方案
  • SAP S/4HANA Cloud ES版销售流程实操:发货、开票、收款,财务凭证自动生成全解析
  • staticFunctional:嵌入式零堆内存的std::function替代方案
  • YOLOv5模型转换实战:从pt到onnx的完整避坑指南(附常见错误排查)
  • 大数据+AI+人|扑兔AI打造企业智慧经营,落地全域获客
  • OpenClaw+Qwen3.5-9B组合优化:3招降低长任务Token消耗
  • centos双虚拟机相互ssh无密码登录
  • 荆门白转黑养发馆选哪家好?黑奥秘AI智能检测养护可视化 - 美业信息观察
  • Quartus-II 9.0实战:从半加器到4位加法器的数字逻辑设计全流程解析
  • Kali实战:CTF杂项题必备工具全解析
  • 智小白 3D 打印机|以魔法创意为钥,让孩子奇思在家中落地生花
  • scope-RAM:嵌入式内存活动的示波器级硬件探针
  • GB28181实战:Windows环境下WVP-GB28181部署全攻略
  • 告别龟速采样!用DDIM在Stable Diffusion WebUI上实现10倍加速出图(附完整代码)
  • 零基础能学中医理疗吗?守嘉职业技能打造入门友好型课程体系 - 品牌排行榜单
  • SQL Server 2008 R2附加数据库的时候报错9003解决办法
  • 用AI Coding版本迭代后技术债飙升,问题出在哪?
  • OpenFeign请求头拦截实战:如何用RequestInterceptor统一添加认证Token?
  • Win11Debloat:让Windows系统性能提升51%的开源优化方案