大模型知识梳理(持续更新)
大模型的底层——Trasnsformer
Transformer 架构是一种基于自注意力机制(Self-Attention)的深度学习模型,由 Google 团队在 2017 年的论文《Attention Is All You Need》中首次提出。它改变了自然语言处理(NLP)领域,并成为现代大语言模型(如GPT、BERT等)的核心基础。
Transformer 与循环神经网络(RNN)类似,旨在处理自然语言等顺序输入数据,适用于机器翻译、文本摘要等任务。然而,与 RNN 不同,Transformer 无需逐步处理序列,而是可以一次性并行处理整个输入。
Eembedding编码
输入的序列会经过编码,包括词编码和位置编码。由于计算机不认识除01以外的寓意,所以需要词编码将当前词归类到一个N维向量中,通过每个维度的值来让计算机识别当前词的语义,这个流程称为词编码。
位置 Embedding 表示单词出现在句子中的位置。因为 Transformer 不采用 RNN 的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于 NLP 来说非常重要。所以 Transformer 中使用位置 Embedding 保存单词在序列中的相对或绝对位置。计算公式如下:
Multi-Headed Self-Attention(多头自注意力)
Self-Attention(自注意力)
Norm(层归一化)
作用:稳定训练过程,防止数值过大或过小(类似"调音量"到合适范围)。
Feed-Forward Network(前馈神经网络)
作用:线性无法获取复杂语义信息,FFN通过将线性转变为非线性,对每个单词的表示进行进一步加工(提取更复杂的特征)。
Masked Multi-Headed Self-Attention(掩码多头自注意力)
作用:训练时防止模型"作弊"(只能看到当前和之前的单词,不能看未来的)。
举例:生成"我爱__“时,模型只能基于"我”“爱"预测下一个词,不能提前知道答案是"你”。
Multi-Headed Cross-Attention(多头交叉注意力)
作用:让解码器询问编码器:“关于输入,我应该重点关注什么?”
场景:翻译任务中,解码器生成英文时,会参考编码器处理的中文输入。
大模型应用的整体架构
用户层 ↓ Prompt层(提示工程) ↓ 能力扩展层(RAG / Tools / Skills) ↓ Agent调度层(MCP / Agent Framework) ↓ 基础模型层(LLM)Prompt
Prompt 是 控制 LLM 行为的核心手段。Prompt = 给模型的任务说明书,正常的大模型会区分系统(System)提示词和用(User)户提示词,系统提示词的优先级更高,对输出的影响权重更大,系统提示词一般为大模型的后门,有对应的.md文件(Claude.md)进行录入,用户提示词一般为前端chat,有五种常见用法:
1 Zero-shot 直接提问 例:解释Kafka的消费流程 2 Few-shot 给例子 例: Q: 1+1 A:2 3 Chain-of-Thought 思维链,让模型一步步推理 例:请一步步分析问题:XXXX 4 Role Prompt 角色设定,赋予大模型一个角色 例:你是一名资深架构师 5 Structured Prompt,结构化输出 例:请以JSON格式输出: { root_cause:"", solution:"" }RAG(Retrieval Augmented Generation)
RAG = 检索增强生成,用来解决大模型不具备公司内部数据上下文的从而至幻的问题。
RAG流程: 用户问题 ↓ 向量检索(Vector DB) ↓ 找到相关文档 ↓ 拼接到Prompt ↓ LLM生成回答 流程图: Question ↓ Embedding ↓ Vector DB ↓ TopK Documents ↓ Prompt + Context ↓ LLMMCP(Model Context Protocol)
MCP 是非常重要的一个协议,核心作用是让 LLM 标准化调用外部工具。
架构: LLM ↓ MCP Client ↓ MCP Server ↓ ToolsSkills
Skills 可以理解为:LLM 可以调用的能力函数,一个 Skill 本质就是:Function / API
放入AI客户端skils目录完成安装 ↓ 用户发送需求,客户端加载所有skil的metadata发给大模型 ↓ 大模型识别并返回所需skil,客户端加载对应文件为系统提示词发送 ↓ 大模型按需让客户端读取参考资料/执行脚本 ↓ 大模型整合结果输出给用户总结
把这些概念串起来,即完整流程:
用户问题 ↓ Prompt设计 ↓ Agent理解任务 ↓ 需要知识 → RAG 需要能力 → Skills 需要工具 → MCP ↓ LLM生成答案对比SKILLS/MCP/WORKFLOW
Skill vS MCP:
- mcp可理解为操作工具,给大模型配的“手”,协议+插件是操控外部的工具
- skills可理解为操作经验,规定场景下工具使用顺序,工具包括MCP插件+本地script脚本
Skill vs Workflow:
- workflow是通过规则配置编排调度的流程,低代码工具编排步骤,设计阶段确定流程结构
- skills可理解为由大模型驱动的调度的流程,执行流程动态变化,灵活性更高
