当前位置: 首页 > news >正文

大模型知识梳理(持续更新)

大模型的底层——Trasnsformer

Transformer 架构是一种基于自注意力机制(Self-Attention)的深度学习模型,由 Google 团队在 2017 年的论文《Attention Is All You Need》中首次提出。它改变了自然语言处理(NLP)领域,并成为现代大语言模型(如GPT、BERT等)的核心基础。

Transformer 与循环神经网络(RNN)类似,旨在处理自然语言等顺序输入数据,适用于机器翻译、文本摘要等任务。然而,与 RNN 不同,Transformer 无需逐步处理序列,而是可以一次性并行处理整个输入。

Transformer架构分为两部分,其中左边为编码器(多头注意力机制+ADD+Norm+FFN),右边为解码器。编码器让模型对原本语句进行多次上下文理解,输出一组向量(表示原句间各词融合上下文信息后的数字变现形式),为计算机对输入文本的理解。解码器基于编码器输出的理解来进行预测生成,每步都进行生成后加入序列再生成。

Eembedding编码

输入的序列会经过编码,包括词编码和位置编码。由于计算机不认识除01以外的寓意,所以需要词编码将当前词归类到一个N维向量中,通过每个维度的值来让计算机识别当前词的语义,这个流程称为词编码。
位置 Embedding 表示单词出现在句子中的位置。因为 Transformer 不采用 RNN 的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于 NLP 来说非常重要。所以 Transformer 中使用位置 Embedding 保存单词在序列中的相对或绝对位置。计算公式如下:

Multi-Headed Self-Attention(多头自注意力)

红框部分为多头注意力机制,作用是让模型同时关注输入中的所有单词,并计算它们之间的关系。多头注意力是由多个 Self-Attention组成,Multi-Head Attention 上方还包括一个 Add & Norm 层,Add 表示残差连接 (Residual Connection) 用于防止网络退化,Norm 表示 Layer Normalization,用于对每一层的激活值进行归一化。

Self-Attention(自注意力)

上图是 Self-Attention 的结构,在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中,Self-Attention 接收的是输入(单词的表示向量x组成的矩阵X) 或者上一个 Encoder block 的输出。而Q,K,V正是通过 Self-Attention 的输入进行线性变换得到的。得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出了,计算的公式如下:
其中Q跟K的点积用来衡量两个词之间的影响程度,下方的维度用来避免内积过大,外部的Softmax分类器是对矩阵的每一行进行 Softmax,让影响之和为1,最后乘上V语义内容。只算一次注意力并不够,因为这只代表一个维度,多头注意力机制对文本的不同维度(语义,语法)等进行处理,可以拿到更丰富的词间关系。

Norm(层归一化)

作用:稳定训练过程,防止数值过大或过小(类似"调音量"到合适范围)。

Feed-Forward Network(前馈神经网络)

作用:线性无法获取复杂语义信息,FFN通过将线性转变为非线性,对每个单词的表示进行进一步加工(提取更复杂的特征)。

Masked Multi-Headed Self-Attention(掩码多头自注意力)

作用:训练时防止模型"作弊"(只能看到当前和之前的单词,不能看未来的)。
举例:生成"我爱__“时,模型只能基于"我”“爱"预测下一个词,不能提前知道答案是"你”。

Multi-Headed Cross-Attention(多头交叉注意力)

作用:让解码器询问编码器:“关于输入,我应该重点关注什么?”
场景:翻译任务中,解码器生成英文时,会参考编码器处理的中文输入。

大模型应用的整体架构

用户层 ↓ Prompt层(提示工程) ↓ 能力扩展层(RAG / Tools / Skills) ↓ Agent调度层(MCP / Agent Framework) ↓ 基础模型层(LLM)

Prompt

Prompt 是 控制 LLM 行为的核心手段。Prompt = 给模型的任务说明书,正常的大模型会区分系统(System)提示词和用(User)户提示词,系统提示词的优先级更高,对输出的影响权重更大,系统提示词一般为大模型的后门,有对应的.md文件(Claude.md)进行录入,用户提示词一般为前端chat,有五种常见用法:

1 Zero-shot 直接提问 例:解释Kafka的消费流程 2 Few-shot 给例子 例: Q: 1+1 A:2 3 Chain-of-Thought 思维链,让模型一步步推理 例:请一步步分析问题:XXXX 4 Role Prompt 角色设定,赋予大模型一个角色 例:你是一名资深架构师 5 Structured Prompt,结构化输出 例:请以JSON格式输出: { root_cause:"", solution:"" }

RAG(Retrieval Augmented Generation)

RAG = 检索增强生成,用来解决大模型不具备公司内部数据上下文的从而至幻的问题。

RAG流程: 用户问题 ↓ 向量检索(Vector DB) ↓ 找到相关文档 ↓ 拼接到Prompt ↓ LLM生成回答 流程图: Question ↓ Embedding ↓ Vector DB ↓ TopK Documents ↓ Prompt + Context ↓ LLM

MCP(Model Context Protocol)

MCP 是非常重要的一个协议,核心作用是让 LLM 标准化调用外部工具。

架构: LLM ↓ MCP Client ↓ MCP Server ↓ Tools

Skills

Skills 可以理解为:LLM 可以调用的能力函数,一个 Skill 本质就是:Function / API

放入AI客户端skils目录完成安装 ↓ 用户发送需求,客户端加载所有skil的metadata发给大模型 ↓ 大模型识别并返回所需skil,客户端加载对应文件为系统提示词发送 ↓ 大模型按需让客户端读取参考资料/执行脚本 ↓ 大模型整合结果输出给用户

总结

把这些概念串起来,即完整流程:

用户问题 ↓ Prompt设计 ↓ Agent理解任务 ↓ 需要知识 → RAG 需要能力 → Skills 需要工具 → MCP ↓ LLM生成答案

对比SKILLS/MCP/WORKFLOW

Skill vS MCP:

  • mcp可理解为操作工具,给大模型配的“手”,协议+插件是操控外部的工具
  • skills可理解为操作经验,规定场景下工具使用顺序,工具包括MCP插件+本地script脚本

Skill vs Workflow:

  • workflow是通过规则配置编排调度的流程,低代码工具编排步骤,设计阶段确定流程结构
  • skills可理解为由大模型驱动的调度的流程,执行流程动态变化,灵活性更高
http://www.jsqmd.com/news/450525/

相关文章:

  • 2026搪瓷拼装罐优质厂家推荐榜适配乳制品场景:海水淡化搪瓷拼装罐/海水淡化环氧拼装罐/消防水搪瓷储罐/选择指南 - 优质品牌商家
  • [C++]std::map用法
  • JFlash实战:如何快速烧录HEX/BIN文件到STM32(附自动运行配置技巧)
  • ShardingSphere-jdbc 5.5.0 + spring boot 基础配置 - 实战篇
  • 【游记】联合省选 2026
  • 小白也能看懂的OpenClaw安装保姆级教程,赶紧先收藏起来,周末实操一下吧,附带命令手册、API配置
  • CVPR‘26 Workshop征稿:探索多智能体具身智能的协同进化
  • 避坑指南:海豚调度器调用Linux资源库Kettle脚本的5个常见错误
  • PSFusion核心技术实战:从原理到部署的全流程解析
  • 少走弯路:AI论文平台 千笔·专业学术智能体 VS 学术猹,本科生写作首选!
  • 3个令人惊叹的C++17功能,让代码变得更简洁
  • Spring Boot + Spring AI快速体验
  • Redis集群模式
  • 如何搭建一个聊天机器人?#3 初步了解koishi、napcat以及onebot
  • 锦囊专家:2025中国企业数智化转型典范案例集 2026
  • 手机也能玩AI换脸?云端部署Roop-Unleashed保姆级教程
  • 免费好用的论文查重网站推荐
  • 群晖Synology Directory Server批量导入用户避坑指南:为什么你的TXT文件总是导入失败?
  • 读懂“社稷为重,君为轻”:真正的忠臣,从不是皇帝的奴才
  • rust web框架actix和axum比较
  • AIChat聊天助手:把 AI 助手“嵌进”你的业务系统
  • 【VMD+Gromacs】用 VMD 玩转分子动力学可视化
  • Spring Boot 各种事务操作实战(自动回滚、手动回滚、部分回滚)
  • 强化学习,第五部分:时间差分学习
  • Java Web 校车调度管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】
  • “印度人参“药效之“醉茄内酯“内酯环的生物合成途径解析
  • 哈尔滨汽车音响改装 大众揽镜丹麦丹拿232、丹拿212、阿尔派R120-12音响改装升级 全车隔音降噪 哈尔滨消费者满分好评店铺-博士达汽车音响作品 - 木火炎
  • 【2025最新】基于SpringBoot+Vue的校园便利平台管理系统源码+MyBatis+MySQL
  • 【C++基础篇】学习C++就看这篇--->泛型编程之模板
  • 2026搪瓷拼装罐优质品牌推荐指南 - 优质品牌商家