当前位置: 首页 > news >正文

【AI大语言模型基础(0)】

Transformer架构

大语言模型不会思考,而是猜字,

大语言模型的“思考”和人类是不一样的,大语言模型是概率选择,

一般有三个参数:

Temperature:冒险程度

参数越高,AI选择低概率的可能性越高,但输出也越不靠谱

Top-K(Top-K采样):K保留

只可能输出前K个选择(按可能性从高到低排序)

Top-P(核心采样):P门槛

概率达到P的才能被可能被输出

为了理解自然语言,

AI接收Token,选择了拆字的方法才处理自然语言,

把英语单词拆分成各个部分,比如abandon,

大模型接收后,会拆分成a,ban,don,

三个token,这些token分别有一个数字编号,

大模型看到的就是这些数字编号,

这些编号还需要被分配坐标,

分配坐标的过程叫:Embedding(词嵌入)

分配坐标后,在数学中的向量就能对这些token进行描述,

但大多时候token会是一个高维向量,

有多高呢?可能是1万维以上。

通过向量的加减法点乘叉乘等计算,

大模型就能对词义进行理解,

比如纸质书-木头=文字。

Attention(注意力机制)

AI并不理解文字,但AI会猜字,

猜字的时候,需要根据上下文对这个要输出的字进行推理,

这就是注意力机制,AI要对每个token进行回顾,

每个token对要输出的字有贡献度(注意力权重),

比如“是关中王刘邦来了”(只是举个例子,可能并不准确)

AI不理解关中王,也不理解刘邦,

但是当关中王出现时,接下来输出刘邦概率就会很高,

而“是”这个字对刘邦输出的贡献度就很低。

这个过程有一个有三个工具QKV,

Q Query 查询:我现在要猜的字

K Key 键:上文所有字

V Value 值:上文字的实际信息 / 内容

通过这三者进行注意力打分,得到一个输出。

预训练:通过各种句子的猜字,来提高大模型的正确率,实现大模型输出从乱码到完整流畅正确的句子的过程。

但这还不够,

模型只是能输出句子,还不能实现对话功能,

需要人类对模型的输出做一个反馈,即标注员,

标注员会告诉AI哪一个输出更好,从而让AI会对话。

Function calling:为了让AI不只是与人类对话,还要帮人类做事。

Fc(Function calling)给AI装了一些功能,给予AI使用某些工具的权限,

让AI能查天气,发微信,买东西等。

而Agent呢则是更进一步,Fc是你仍要告诉ai查天气,

Agent可以做到你给它一个命令他将会想出这件事要怎么完成,

然后一步步去完成。

Skill就是技能,给AI装越多的Skill,AI就能做越多的事。

RAG是为了在训练AI之后再继续给AI加入知识,

AI训练之后就定型了,出了新的新闻AI也不知道,

AI就需要RAG来现查这个新出的新闻。

http://www.jsqmd.com/news/668779/

相关文章:

  • 常用API:
  • 别再学框架了!2026奇点大会证实:未来3年高薪岗位只筛选这7种AGI协同行为模式
  • 2025-2026年全球访客机品牌推荐:五大口碑产品评测对比顶尖工厂访客身份核验繁琐 - 品牌推荐
  • mysql如何优化索引以减少扫描_mysql高效索引设计原则
  • 终极免费视频下载工具:ytDownloader完整使用指南
  • 2025-2026年香港求职机构推荐:五大口碑服务评测对比顶尖求职者面试技巧不足 - 品牌推荐
  • 从寄存器手册到代码:手把手教你逆向分析ES8311官方驱动配置逻辑
  • 刚刚,4月编程排行榜出炉,AI都能写代码了,C语言凭啥还排第二?
  • H3C交换机上给不同VLAN配DHCP,一次搞定网关、地址池和DNS(附完整命令)
  • 【AGI蛋白质折叠预测革命】:2024年AlphaFold 3与RoseTTAFold AI实测对比,精准度突破99.2%的5大临床应用落地路径
  • 2025-2026年访客机品牌推荐:五大口碑产品评测对比顶尖工厂安全管理访客滞留案例 - 品牌推荐
  • FPGA设计里选乘法器IP还是写RTL?从面积、时序和易用性帮你决策
  • 2025-2026年香港求职机构推荐:五大口碑服务评测对比顶尖职场新人面试紧张缺乏经验 - 品牌推荐
  • 纯小白地面站烧录Pixhawk2.4.8并校准
  • 赛元SC95F8617触摸库实战:从电机干扰到人体检测,我的按摩椅项目避坑实录
  • BZOJ 水题50乱做
  • Sunshine游戏串流编码器配置全面解析与深度优化指南
  • Java第二周
  • 金程考研联系方式查询:如何通过官方渠道获取考研辅导服务与评估机构适配性 - 品牌推荐
  • 告别VMware!用Arsenal Image Mounter在Windows里直接‘打开’取证镜像,像本地硬盘一样操作
  • 为什么你的HR数字化项目总失败?AGI原生架构 vs 传统RPA的5维能力对比(附Gartner最新评估矩阵)
  • 2025-2026年香港求职机构推荐:五大口碑服务评测对比顶尖职场新人薪资谈判困境 - 品牌推荐
  • 双叶家具联系方式查询:关于大同地区实体门店信息与选购实木家具的通用指南 - 品牌推荐
  • AGI生成内容著作权归属争议全复盘(从Stable Diffusion案到中国首例AI绘画确权判决)
  • 2025-2026年国内央国企求职机构推荐:五大口碑服务评测对比顶尖跨专业求职竞争力不足 - 品牌推荐
  • 从一道BUUCTF的SSRF题,聊聊Linux命令行那些“意想不到”的利用姿势(HITCON 2017实战复盘)
  • [云原生/K8s] Kubernetes Pod中的Pause容器
  • 微信小程序更新机制踩坑记录:updateInfo 为什么总是读到旧数据?
  • 2025-2026年香港求职机构推荐:五大口碑服务评测评价顶尖金融科技赛道竞争激烈 - 品牌推荐
  • 用 AR 眼镜重构生活记忆:我做了一个「空间记忆管家」智能体