【AI大语言模型基础(0)】
Transformer架构
大语言模型不会思考,而是猜字,
大语言模型的“思考”和人类是不一样的,大语言模型是概率选择,
一般有三个参数:
Temperature:冒险程度
参数越高,AI选择低概率的可能性越高,但输出也越不靠谱
Top-K(Top-K采样):K保留
只可能输出前K个选择(按可能性从高到低排序)
Top-P(核心采样):P门槛
概率达到P的才能被可能被输出
为了理解自然语言,
AI接收Token,选择了拆字的方法才处理自然语言,
把英语单词拆分成各个部分,比如abandon,
大模型接收后,会拆分成a,ban,don,
三个token,这些token分别有一个数字编号,
大模型看到的就是这些数字编号,
这些编号还需要被分配坐标,
分配坐标的过程叫:Embedding(词嵌入)
分配坐标后,在数学中的向量就能对这些token进行描述,
但大多时候token会是一个高维向量,
有多高呢?可能是1万维以上。
通过向量的加减法点乘叉乘等计算,
大模型就能对词义进行理解,
比如纸质书-木头=文字。
Attention(注意力机制)
AI并不理解文字,但AI会猜字,
猜字的时候,需要根据上下文对这个要输出的字进行推理,
这就是注意力机制,AI要对每个token进行回顾,
每个token对要输出的字有贡献度(注意力权重),
比如“是关中王刘邦来了”(只是举个例子,可能并不准确)
AI不理解关中王,也不理解刘邦,
但是当关中王出现时,接下来输出刘邦概率就会很高,
而“是”这个字对刘邦输出的贡献度就很低。
这个过程有一个有三个工具QKV,
Q Query 查询:我现在要猜的字
K Key 键:上文所有字
V Value 值:上文字的实际信息 / 内容
通过这三者进行注意力打分,得到一个输出。
预训练:通过各种句子的猜字,来提高大模型的正确率,实现大模型输出从乱码到完整流畅正确的句子的过程。
但这还不够,
模型只是能输出句子,还不能实现对话功能,
需要人类对模型的输出做一个反馈,即标注员,
标注员会告诉AI哪一个输出更好,从而让AI会对话。
Function calling:为了让AI不只是与人类对话,还要帮人类做事。
Fc(Function calling)给AI装了一些功能,给予AI使用某些工具的权限,
让AI能查天气,发微信,买东西等。
而Agent呢则是更进一步,Fc是你仍要告诉ai查天气,
Agent可以做到你给它一个命令他将会想出这件事要怎么完成,
然后一步步去完成。
Skill就是技能,给AI装越多的Skill,AI就能做越多的事。
RAG是为了在训练AI之后再继续给AI加入知识,
AI训练之后就定型了,出了新的新闻AI也不知道,
AI就需要RAG来现查这个新出的新闻。
