当前位置：首页 > news >正文

【AI大语言模型基础（0）】

news 2026/4/20 1:35:46

Transformer架构

大语言模型不会思考，而是猜字，

大语言模型的“思考”和人类是不一样的，大语言模型是概率选择，

一般有三个参数：

Temperature：冒险程度

参数越高，AI选择低概率的可能性越高，但输出也越不靠谱

Top-K(Top-K采样)：K保留

只可能输出前K个选择（按可能性从高到低排序）

Top-P(核心采样)：P门槛

概率达到P的才能被可能被输出

为了理解自然语言，

AI接收Token，选择了拆字的方法才处理自然语言，

把英语单词拆分成各个部分，比如abandon，

大模型接收后，会拆分成a，ban，don，

三个token，这些token分别有一个数字编号，

大模型看到的就是这些数字编号，

这些编号还需要被分配坐标，

分配坐标的过程叫：Embedding（词嵌入）

分配坐标后，在数学中的向量就能对这些token进行描述，

但大多时候token会是一个高维向量，

有多高呢？可能是1万维以上。

通过向量的加减法点乘叉乘等计算，

大模型就能对词义进行理解，

比如纸质书-木头=文字。

Attention（注意力机制）

AI并不理解文字，但AI会猜字，

猜字的时候，需要根据上下文对这个要输出的字进行推理，

这就是注意力机制，AI要对每个token进行回顾，

每个token对要输出的字有贡献度（注意力权重），

比如“是关中王刘邦来了”（只是举个例子，可能并不准确）

AI不理解关中王，也不理解刘邦，

但是当关中王出现时，接下来输出刘邦概率就会很高，

而“是”这个字对刘邦输出的贡献度就很低。

这个过程有一个有三个工具QKV,

Q Query 查询：我现在要猜的字

K Key 键：上文所有字

V Value 值：上文字的实际信息 / 内容

通过这三者进行注意力打分，得到一个输出。

预训练：通过各种句子的猜字，来提高大模型的正确率，实现大模型输出从乱码到完整流畅正确的句子的过程。

但这还不够，

模型只是能输出句子，还不能实现对话功能，

需要人类对模型的输出做一个反馈，即标注员，

标注员会告诉AI哪一个输出更好，从而让AI会对话。

Function calling：为了让AI不只是与人类对话，还要帮人类做事。

Fc(Function calling)给AI装了一些功能，给予AI使用某些工具的权限，

让AI能查天气，发微信，买东西等。

而Agent呢则是更进一步，Fc是你仍要告诉ai查天气，

Agent可以做到你给它一个命令他将会想出这件事要怎么完成，

然后一步步去完成。

Skill就是技能，给AI装越多的Skill，AI就能做越多的事。

RAG是为了在训练AI之后再继续给AI加入知识，

AI训练之后就定型了，出了新的新闻AI也不知道，

AI就需要RAG来现查这个新出的新闻。

查看全文

http://www.jsqmd.com/news/668779/

常用API：

别再学框架了！2026奇点大会证实：未来3年高薪岗位只筛选这7种AGI协同行为模式

mysql如何优化索引以减少扫描_mysql高效索引设计原则

终极免费视频下载工具：ytDownloader完整使用指南

从寄存器手册到代码：手把手教你逆向分析ES8311官方驱动配置逻辑

刚刚，4月编程排行榜出炉，AI都能写代码了，C语言凭啥还排第二？

H3C交换机上给不同VLAN配DHCP，一次搞定网关、地址池和DNS（附完整命令）

【AGI蛋白质折叠预测革命】：2024年AlphaFold 3与RoseTTAFold AI实测对比，精准度突破99.2%的5大临床应用落地路径

FPGA设计里选乘法器IP还是写RTL？从面积、时序和易用性帮你决策

纯小白地面站烧录Pixhawk2.4.8并校准

赛元SC95F8617触摸库实战：从电机干扰到人体检测，我的按摩椅项目避坑实录

BZOJ 水题50乱做

Sunshine游戏串流编码器配置全面解析与深度优化指南

Java第二周

金程考研联系方式查询：如何通过官方渠道获取考研辅导服务与评估机构适配性 - 品牌推荐

告别VMware！用Arsenal Image Mounter在Windows里直接‘打开’取证镜像，像本地硬盘一样操作

为什么你的HR数字化项目总失败？AGI原生架构 vs 传统RPA的5维能力对比（附Gartner最新评估矩阵）

双叶家具联系方式查询：关于大同地区实体门店信息与选购实木家具的通用指南 - 品牌推荐

AGI生成内容著作权归属争议全复盘（从Stable Diffusion案到中国首例AI绘画确权判决）

2025-2026年国内央国企求职机构推荐：五大口碑服务评测对比顶尖跨专业求职竞争力不足 - 品牌推荐

从一道BUUCTF的SSRF题，聊聊Linux命令行那些“意想不到”的利用姿势（HITCON 2017实战复盘）

[云原生/K8s] Kubernetes Pod中的Pause容器

微信小程序更新机制踩坑记录：updateInfo 为什么总是读到旧数据？

用 AR 眼镜重构生活记忆：我做了一个「空间记忆管家」智能体

相关文章：