当前位置：首页 > news >正文

大模型知识梳理（持续更新）

news 2026/4/8 8:27:33

大模型的底层——Trasnsformer

Transformer 架构是一种基于自注意力机制（Self-Attention）的深度学习模型，由 Google 团队在 2017 年的论文《Attention Is All You Need》中首次提出。它改变了自然语言处理（NLP）领域，并成为现代大语言模型（如GPT、BERT等）的核心基础。

Transformer 与循环神经网络（RNN）类似，旨在处理自然语言等顺序输入数据，适用于机器翻译、文本摘要等任务。然而，与 RNN 不同，Transformer 无需逐步处理序列，而是可以一次性并行处理整个输入。

Transformer架构分为两部分，其中左边为编码器（多头注意力机制+ADD+Norm+FFN），右边为解码器。编码器让模型对原本语句进行多次上下文理解，输出一组向量（表示原句间各词融合上下文信息后的数字变现形式），为计算机对输入文本的理解。解码器基于编码器输出的理解来进行预测生成，每步都进行生成后加入序列再生成。

Eembedding编码

输入的序列会经过编码，包括词编码和位置编码。由于计算机不认识除01以外的寓意，所以需要词编码将当前词归类到一个N维向量中，通过每个维度的值来让计算机识别当前词的语义，这个流程称为词编码。
位置 Embedding 表示单词出现在句子中的位置。因为 Transformer 不采用 RNN 的结构，而是使用全局信息，不能利用单词的顺序信息，而这部分信息对于 NLP 来说非常重要。所以 Transformer 中使用位置 Embedding 保存单词在序列中的相对或绝对位置。计算公式如下：

Multi-Headed Self-Attention（多头自注意力）

红框部分为多头注意力机制，作用是让模型同时关注输入中的所有单词，并计算它们之间的关系。多头注意力是由多个 Self-Attention组成，Multi-Head Attention 上方还包括一个 Add & Norm 层，Add 表示残差连接 (Residual Connection) 用于防止网络退化，Norm 表示 Layer Normalization，用于对每一层的激活值进行归一化。

Self-Attention（自注意力）

上图是 Self-Attention 的结构，在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中，Self-Attention 接收的是输入(单词的表示向量x组成的矩阵X) 或者上一个 Encoder block 的输出。而Q,K,V正是通过 Self-Attention 的输入进行线性变换得到的。得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出了，计算的公式如下：

其中Q跟K的点积用来衡量两个词之间的影响程度，下方的维度用来避免内积过大，外部的Softmax分类器是对矩阵的每一行进行 Softmax，让影响之和为1，最后乘上V语义内容。只算一次注意力并不够，因为这只代表一个维度，多头注意力机制对文本的不同维度（语义，语法）等进行处理，可以拿到更丰富的词间关系。

Norm（层归一化）

作用：稳定训练过程，防止数值过大或过小（类似"调音量"到合适范围）。

Feed-Forward Network（前馈神经网络）

作用：线性无法获取复杂语义信息，FFN通过将线性转变为非线性，对每个单词的表示进行进一步加工（提取更复杂的特征）。

Masked Multi-Headed Self-Attention（掩码多头自注意力）

作用：训练时防止模型"作弊"（只能看到当前和之前的单词，不能看未来的）。
举例：生成"我爱__“时，模型只能基于"我”“爱"预测下一个词，不能提前知道答案是"你”。

Multi-Headed Cross-Attention（多头交叉注意力）

作用：让解码器询问编码器：“关于输入，我应该重点关注什么？”
场景：翻译任务中，解码器生成英文时，会参考编码器处理的中文输入。

大模型应用的整体架构

用户层 ↓ Prompt层（提示工程） ↓ 能力扩展层（RAG / Tools / Skills） ↓ Agent调度层（MCP / Agent Framework） ↓ 基础模型层（LLM）

Prompt

Prompt 是控制 LLM 行为的核心手段。Prompt = 给模型的任务说明书，正常的大模型会区分系统（System）提示词和用（User）户提示词，系统提示词的优先级更高，对输出的影响权重更大，系统提示词一般为大模型的后门，有对应的.md文件（Claude.md）进行录入，用户提示词一般为前端chat，有五种常见用法：

1 Zero-shot 直接提问 例：解释Kafka的消费流程 2 Few-shot 给例子 例： Q: 1+1 A:2 3 Chain-of-Thought 思维链，让模型一步步推理 例：请一步步分析问题：XXXX 4 Role Prompt 角色设定，赋予大模型一个角色 例：你是一名资深架构师 5 Structured Prompt，结构化输出 例：请以JSON格式输出： { root_cause:"", solution:"" }

RAG（Retrieval Augmented Generation）

RAG = 检索增强生成，用来解决大模型不具备公司内部数据上下文的从而至幻的问题。

RAG流程： 用户问题 ↓ 向量检索（Vector DB） ↓ 找到相关文档 ↓ 拼接到Prompt ↓ LLM生成回答 流程图： Question ↓ Embedding ↓ Vector DB ↓ TopK Documents ↓ Prompt + Context ↓ LLM

MCP（Model Context Protocol）

MCP 是非常重要的一个协议，核心作用是让 LLM 标准化调用外部工具。

架构： LLM ↓ MCP Client ↓ MCP Server ↓ Tools

Skills

Skills 可以理解为：LLM 可以调用的能力函数，一个 Skill 本质就是：Function / API

放入AI客户端skils目录完成安装 ↓ 用户发送需求，客户端加载所有skil的metadata发给大模型 ↓ 大模型识别并返回所需skil，客户端加载对应文件为系统提示词发送 ↓ 大模型按需让客户端读取参考资料/执行脚本 ↓ 大模型整合结果输出给用户

总结

把这些概念串起来，即完整流程：

用户问题 ↓ Prompt设计 ↓ Agent理解任务 ↓ 需要知识 → RAG 需要能力 → Skills 需要工具 → MCP ↓ LLM生成答案

对比SKILLS/MCP/WORKFLOW

Skill vS MCP:

mcp可理解为操作工具，给大模型配的“手”，协议+插件是操控外部的工具
skills可理解为操作经验，规定场景下工具使用顺序，工具包括MCP插件+本地script脚本

Skill vs Workflow:

workflow是通过规则配置编排调度的流程，低代码工具编排步骤，设计阶段确定流程结构
skills可理解为由大模型驱动的调度的流程，执行流程动态变化，灵活性更高

查看全文

http://www.jsqmd.com/news/450525/

[C++]std::map用法

JFlash实战：如何快速烧录HEX/BIN文件到STM32（附自动运行配置技巧）

ShardingSphere-jdbc 5.5.0 + spring boot 基础配置 - 实战篇

【游记】联合省选 2026

小白也能看懂的OpenClaw安装保姆级教程，赶紧先收藏起来，周末实操一下吧，附带命令手册、API配置

CVPR‘26 Workshop征稿：探索多智能体具身智能的协同进化

避坑指南：海豚调度器调用Linux资源库Kettle脚本的5个常见错误

PSFusion核心技术实战：从原理到部署的全流程解析

少走弯路：AI论文平台千笔·专业学术智能体 VS 学术猹，本科生写作首选！

3个令人惊叹的C++17功能，让代码变得更简洁

Spring Boot + Spring AI快速体验

Redis集群模式

如何搭建一个聊天机器人？#3 初步了解koishi、napcat以及onebot

锦囊专家：2025中国企业数智化转型典范案例集 2026

手机也能玩AI换脸？云端部署Roop-Unleashed保姆级教程

读懂“社稷为重，君为轻”：真正的忠臣，从不是皇帝的奴才

rust web框架actix和axum比较

AIChat聊天助手：把 AI 助手“嵌进”你的业务系统

【VMD+Gromacs】用 VMD 玩转分子动力学可视化

Spring Boot 各种事务操作实战(自动回滚、手动回滚、部分回滚）

强化学习，第五部分：时间差分学习

Java Web 校车调度管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

“印度人参“药效之“醉茄内酯“内酯环的生物合成途径解析

哈尔滨汽车音响改装大众揽镜丹麦丹拿232、丹拿212、阿尔派R120-12音响改装升级全车隔音降噪哈尔滨消费者满分好评店铺-博士达汽车音响作品 - 木火炎

【C++基础篇】学习C++就看这篇---＞泛型编程之模板

2026搪瓷拼装罐优质品牌推荐指南 - 优质品牌商家