当前位置：首页 > news >正文

【2026】 LLM 大模型系统学习指南 (2)

news 2026/7/15 0:36:55

一文读懂生成式 AI：从 “文字接龙” 到智能创作的核心原理

生活里我们常遇到生成式 AI：用 ChatGPT 写活动方案、让 AI 画一张 “赛博朋克故宫”、甚至用 AI 生成简单的代码 —— 这些看似复杂的能力，背后藏着一套清晰的逻辑。今天我们就从最基础的概念入手，一步步拆解生成式 AI 如何 “思考” 和 “创造”，不用复杂公式，只讲能落地的理解。

一、生成式 AI 的 “基础积木”：Token

不管是 AI 写的句子、画的图像，还是生成的音频，最终都来自一个核心单位 ——Token。我们可以把它想象成 “通用积木”：

对文字来说，Token 可能是一个字（“天”）、一个词（“天气”），甚至是 “空格 + 词”（比如 “ 今天” 和 “今天” 会被视作不同 Token）；
对图像来说，Token 可以是一个像素块；对音频来说，就是一段微小的声音片段。

每个生成式 AI 都有一个 “积木库”（Vocabulary），里面通常装着 5 万到 25 万个 Token。你可能会问：这么少的积木，怎么拼出无限的内容？答案很简单 ——组合爆炸。就像 26 个英文字母能写出所有英文文章，有限的 Token 通过不同排列，能生成无穷多的句子、图像或音频。比如 “北京”“天气”“今天”“很好” 这几个 Token，能组合出 “北京今天天气很好”“今天北京天气很好” 等不同表达，灵活又多样。

二、AI 的 “创作方式”：自回归生成

生成式 AI 的核心动作，其实像我们玩 “文字接龙”——逐次预测下一个 Token，这个过程叫 “自回归生成”。具体分三步，我们用 “输入‘北京的天气’，让 AI 续写” 来举例：

1. 第一步：算概率 —— 给每个积木打分

AI 会先分析输入的 “北京的天气” 这个 Token 序列，然后给 “积木库” 里的每个 Token 打一个 “可能性分数”。比如 “今天” 的分数可能是 0.8（最可能），“明天” 是 0.15（次可能），“很好” 是 0.03（不太可能）。背后的逻辑是 AI 在海量数据里学过：人们说 “北京的天气” 后，最常接的词就是 “今天”。

2. 第二步：抽样 —— 选一个积木继续接

AI 不会直接选分数最高的 Token，而是 “随机抽样”—— 就像抽奖时，中奖概率高的号码更容易被抽到，但低概率号码也有机会。这里有个关键参数叫温度（Temperature），能控制 AI 的 “冒险程度”：

温度低（比如 0.1）：AI 会更保守，只选分数最高的 Token，结果更稳定但可能单调（比如每次都接 “今天很好”）；
温度高（比如 1.5）：AI 会更冒险，低概率 Token 也可能被选中，结果更有创意但可能离谱（比如接 “今天会下彩虹”）。

3. 第三步：循环 —— 直到接完 “一句话”

选好的 Token（比如 “今天”）会追加到原序列后，变成 “北京的天气今天”。AI 再对这个新序列重复第一步、第二步，预测下一个 Token（比如 “很好”），直到生成一个 “停止符”（比如句号），整个句子就完成了。

这种 “一步接一步” 的逻辑，正是 AI 能生成连贯内容的关键 —— 就像我们写作文时，先想第一句，再顺着第一句想第二句，而不是一下子把所有话都憋出来。

三、AI 的 “知识短板”：语言知识 vs 世界知识

要生成通顺又准确的内容，AI 需要掌握两类知识，但两者的难度天差地别：

1. 容易学的 “语言知识”

比如语法、词汇搭配、表达习惯 —— 给 AI 看 100 万篇文章，它就能熟练掌握 “主谓宾” 结构，知道 “天气” 要和 “晴朗”“下雨” 搭配，不会说 “天气吃午饭”。这类知识是 “有规律的”，AI 能快速学会，几乎不会出错。

2. 难学的 “世界知识”

比如常识、事实、因果关系 ——AI 需要知道 “标准大气压下，水的沸点是 100℃”“夏天不会下雪（除非在高海拔地区）”“先有种子才能长出树”。但这类知识无穷无尽，而且会随时间变化（比如新的科技发现、政策调整），AI 不可能全部学会。

这就是为什么 AI 有时会 “说瞎话”（比如编造不存在的文献、记错历史年份），行业里叫 “幻觉”—— 不是 AI 故意骗人，而是它的 “世界知识储备” 还不够全，把模糊的记忆当成了事实。

四、让 AI “高效思考” 的核心架构：Transformer

早期的 AI 处理序列（比如句子）时，只能 “逐个 Token 分析”，像排队安检一样慢。2017 年出现的Transformer 架构，彻底改变了这一点 —— 它能 “同时处理所有 Token”，效率大幅提升，现在主流的生成式 AI（比如 GPT、Gemini）都用这套架构。我们拆解它的三个核心部分：

1. 嵌入层：给 Token “贴标签”

Token 是离散的 “积木”，没法直接计算，所以第一步要把它们变成连续的 “数字标签”（向量）。比如 “北京” 会被转换成一个高维向量，“天气” 转换成另一个向量；同时，还要给每个 Token 加 “位置信息”—— 比如 “北京” 在 “天气” 前面，这个顺序不能乱，就像积木要按顺序堆叠一样。

对我们来说，这个过程就像 “给每个积木贴一个带位置的二维码”，让 AI 能快速识别和计算。

2. 多头注意力：同时 “看” 多个关联

这是 Transformer 的 “心脏”，作用是让 AI 能 “理解 Token 之间的关系”。比如看到 “银行” 这个 Token，AI 会同时思考：

前面的 “我去”“存钱” 和 “银行” 有关吗？（大概率是 “存钱的银行”）；
前面的 “河边”“走” 和 “银行” 有关吗？（大概率是 “河边的岸”）。

“多头” 意味着 AI 会从多个角度分析关联 —— 一个 “头” 看语法关系，一个 “头” 看语义关系，一个 “头” 看上下文逻辑，最后综合这些角度得出结论。这种能力让 AI 不会 “断章取义”，比如不会把 “河边的银行” 理解成 “存钱的地方”。

3. 前馈网络 + 堆叠层：“加工” 知识

每个 Transformer 块里，还有一个 “前馈网络（FFN）”，它像 AI 的 “知识储备库”—— 里面存储着从海量数据中学到的规律（比如 “春天” 常和 “花开” 搭配），能对 Token 向量做进一步优化。

这些 Transformer 块会 “一层层堆叠”（通常 10 多层），就像工厂的流水线：第一层处理 “字面意思”，第二层分析 “语法结构”，第三层理解 “深层语义”，越往后加工越精细，最终输出的 Token 序列就越连贯、准确。

五、Token 的 “组装手册”：Tokenization

在 AI 处理文本前，需要把原始文字拆成 Token，这个过程叫 “Tokenization”。目前最常用的方法是字节对编码（BPE），逻辑很直观：

刚开始，每个字符都是一个独立 Token（比如 “北”“京”“的”“天”“气”）；
算法反复寻找 “最常一起出现的字符对”，把它们合并成新 Token（比如 “天” 和 “气” 常一起出现，就合并成 “天气”）；
重复第二步，直到 Token 总数达到目标（比如 5 万个）。

这种方法的好处是 “灵活”—— 遇到没学过的新词（比如 “AI 博主”），AI 能拆成 “AI” 和 “博主” 这两个已知 Token，不会完全无法处理。就像我们遇到不认识的字，能通过偏旁部首猜意思一样。

六、懂原理的意义：不止是 “用 AI”，更是 “懂 AI”

了解这些原理，不是为了成为 AI 工程师，而是能更聪明地和 AI 互动：

比如想让 AI 写一篇 “校园运动会报道”，你会知道要给足够的 Token 上下文（比如 “报道要包含开幕式、100 米比赛、闭幕式，语气积极”），而不是只说 “写篇报道”；
比如看到 AI 生成的内容有错误，你会明白可能是 “世界知识不足”，而不是 AI “故意犯错”，可以通过补充事实（比如 “根据 2025 年数据，XX 市人口是 XXX 万”）来修正。

对学习编程的同学来说，这些逻辑也能迁移 —— 比如处理数据时，像 Tokenization 一样 “拆分复杂问题”，像 Transformer 一样 “关注数据间的关联”，都是很实用的思维方式。

查看全文

http://www.jsqmd.com/news/252981/