当前位置: 首页 > news >正文

LLM | 学习笔记一

🧠 一、基本概念
⭐LLM:
LLM是一个基于Transformer的自回归概率生成模型,通过学习token序列分布,在上下文条件下逐token生成文本。

⭐Transformer:
Transformer是一种基于Self-Attention机制的并行序列建模结构,用于捕捉全局依赖关系。

⭐Attention本质:
Attention是一种基于Q-K相似度计算权重,并对V进行加权求和的信息融合机制。

🧩 二、LLM的工作流程
1️⃣ Tokenization(文本切分)
输入文本会被拆分为token:“我喜欢AI” → [“我”, “喜欢”, “AI”]
Token是模型处理文本的最小单位(不等于词)

2️⃣ Embedding(向量化)
每个token会被映射为向量表示:
token → vector(语义空间坐标)

3️⃣ Positional Encoding(位置信息)
由于Transformer没有顺序概念,因此需要加入位置信息,让模型知道token顺序

4️⃣ Transformer处理(核心)
输入向量进入多层Transformer结构进行信息交互与更新。

🧠 三、Transformer核心结构
🔥 1. Self-Attention机制
Self-Attention的作用是:让每个token与序列中所有token建立关系,并动态计算重要性权重。

🧩 2. Q/K/V机制
每个token通过训练得到的线性变换矩阵(projection matrices)得到:

Q = XWq K = XWk V = XWv

含义:

向量作用
Q当前token想找什么信息
K其他token的特征表示
V其他token的真实内容

Attention = 用Q去匹配K,并从V中提取信息

🔁 4. 多层Transformer
每一层都会:
更新token表示,融合上下文信息

🧠 四、自回归生成机制
LLM属于自回归模型(Autoregressive Model):当前token的生成只依赖于之前的token

📌 生成过程:
我 今天 很 → 开心
我 今天 很 开心 → 因为
我 今天 很 开心 因为 → …
🧠 本质:
LLM通过不断预测下一个token的概率分布,逐步生成完整文本

🧠 五、Transformer vs RNN(补充理解)

维度RNNTransformer
计算方式顺序并行
信息建模hidden stateattention
长距离依赖
训练效率

🧠 核心区别:
RNN依赖“记忆传递”,Transformer依赖“全局注意力”

http://www.jsqmd.com/news/1093169/

相关文章:

  • 搞skill比搞向量库简单多了,要干的事全搞成skill就好了
  • AI技能编排框架mattpocock/skills:标准化接口与集成实践
  • 计算机毕业设计之基于SSM的员工培训管理系统的设计与实现
  • 嵌入式系统未来展望
  • 当你的 PHP 应用的 API 没有限流时会发生什么
  • 分治策略在图像处理算法中的应用与优化的技术7
  • AI之长效智能体Hermes Agent
  • 变更管理化技术中的变更请求变更控制变更实施
  • 2026微信视频号视频保存到相册方法,安卓苹果本地下载教程
  • Java实战:基于BouncyCastle的SM2国密算法加密通信Demo
  • CSRF防御绕过实战:Burp Suite深度解析Token、SameSite Cookie与验证逻辑漏洞
  • 新华读报|“手机痴呆症”盯上中青年——怪不得最近记性变差,千万不要再做低头族了!!!
  • Java spring boot 使用阿里OSS实现图片上传,附源码
  • 计算机二级基础知识-定点数-浮点数-反码等基础知识学习
  • 想找靠谱的防水轨道插座服务商?这份实用挑选攻略帮你少走弯路
  • NoMachine远程桌面实战:从零安装到高效连接
  • Java SE 和 Java EE 的核心功能模块
  • 关于基于优先搜索的路径规划算法性能分析的技术7
  • 硕晟OntoCore公众号文章-Markdown版
  • Python实现Paillier同态加密:从原理到工程实践
  • 密码学h面试大法---h(自用版)更新中~(^v^)
  • 【国产大模型突围真相】:DeepSeek-R1在C-Eval 92.7分背后的技术路径 vs ChatGPT-4o在中文法律问答中37%幻觉率的根源分析
  • 三步搞定微信QQ防撤回:让你的重要消息不再消失
  • 从零到一:用nssm将任意应用封装为Windows服务
  • (InputStream的源码、FilterInputStream源码、BufferedInputStream的源码解读前言)AtomicReferenceFieldUpdater.class和Sys
  • ingress-nginx
  • 实时更新策略
  • 格子达的在线预览上传的word论文很多bug,明明没有线的,却多出了线,强烈建议系统抓紧补足漏洞!!!
  • 小程序WIFI连接实战:跨平台兼容性处理与iOS跳转优化方案
  • Spring Boot 缓存注解执行逻辑