当前位置：首页 > news >正文

人工智能通识课：大语言模型

news 2026/5/27 2:03:19

大语言模型（Large Language Model，LLM）是以深度学习为基础、以大规模语料训练而成的语言智能系统。它能够理解、生成、改写、总结、翻译和组织自然语言，也能够在一定程度上完成代码生成、知识问答、逻辑推理、工具调用和多模态交互等任务。

如果说传统自然语言处理模型通常围绕某一个具体任务训练，例如文本分类、机器翻译或情感分析，那么大语言模型更强调“通用语言建模”。

它不是只学习一个固定任务，而是通过海量文本学习语言中的词语关系、句法结构、语义模式、知识关联和任务表达方式，再通过提示词或指令适配不同任务。

图 1：大语言模型在人工智能体系中的位置

大语言模型的出现，使人工智能系统从“专用模型完成专用任务”进一步走向“通过自然语言接口完成多种任务”。

用户不再必须把任务拆解成复杂的代码或专业指令，而可以直接用自然语言描述目标、约束和输出格式。这也是大语言模型成为当前人工智能核心技术路线之一的重要原因。

一、从自然语言处理到大语言模型

自然语言处理（Natural Language Processing，NLP）是人工智能中研究机器理解和生成自然语言的领域。

早期 NLP 系统通常依赖人工规则和词典，例如根据关键词匹配意图，或根据语法规则分析句子结构。这类方法在结构清晰、范围有限的任务中有效，但难以应对真实语言中的歧义、上下文、隐喻和开放表达。

随着机器学习的发展，NLP 开始大量使用统计模型。模型不再完全依赖人工规则，而是从语料中学习词语共现、句子结构和类别边界。

例如，垃圾邮件识别可以通过大量标注邮件学习“哪些词语组合更可能表示垃圾邮件”；情感分析可以通过用户评论学习“哪些表达更可能对应正面或负面情绪”。

深度学习进一步改变了 NLP 的基本方法。

词语不再只是离散符号，而可以表示为向量；句子不再只是词语序列，而可以通过神经网络编码成语义表示。循环神经网络、卷积神经网络、注意力机制和 Transformer 等结构，使模型能够更好地处理长文本、上下文关系和复杂语义。

大语言模型正是在这一演进过程中形成的。它以 Transformer 为核心架构，以大规模文本预训练为基础，通过预测语言序列中的下一个单位来学习语言规律。

Transformer 由 Vaswani 等人在 2017 年提出，其核心特点是基于注意力机制，而不再依赖传统循环结构或卷积结构处理序列；这一架构后来成为现代大语言模型的基础之一。

简单来说，大语言模型的关键变化在于：它不再为每个任务单独从零训练一个模型，而是先训练一个具有广泛语言能力的基础模型，再通过提示词、微调、检索、工具调用等方式适配不同任务。

二、大语言模型的基本思想

大语言模型的基本思想可以概括为：通过预测语言序列中的下一个 Token，学习语言和知识的统计规律，并在上下文中生成符合任务要求的输出。

1、大语言模型首先是语言模型

语言模型的基本目标，是估计一段文本出现的可能性。更直观地说，就是根据前面的内容预测后面可能出现什么。

例如，看到“今天的天气很”，人类很容易预测后面可能是“好”“冷”“热”“糟糕”。

语言模型也是在做类似事情，只不过它不是凭直觉，而是根据大量语料训练得到的参数来计算每种后续 Token 的概率。

在自回归语言模型中，生成过程通常可以理解为：模型先根据已有上下文预测下一个 Token，再把这个 Token 加入上下文，继续预测下一个 Token，如此循环，直到生成完整回答。

2、大语言模型通过大规模数据学习通用模式

大语言模型之所以“大”，不仅体现在参数规模上，也体现在训练数据、计算资源和任务覆盖范围上。它在大量文本上学习语言表达、事实关联、推理模式、代码结构、写作格式和人类指令形式。

例如，模型在训练中可能见过大量“问题—回答”“标题—正文”“代码—注释”“论文—摘要”“中文—英文”等文本模式。训练之后，当用户提出类似任务时，模型就能够根据上下文补全出符合模式的内容。

3、大语言模型不是数据库，而是参数化模型

大语言模型并不是把所有训练资料逐条存入数据库。它更像是把大量文本中的统计规律压缩进神经网络参数中。

模型可以生成看似有知识的回答，但这并不等于它总能准确记住事实，也不等于它能自动知道最新信息。

因此，大语言模型既强大，也有局限：它擅长语言组织、模式迁移和上下文生成，但可能产生事实错误、编造来源或过度自信的回答。这就是后文要讨论的“幻觉”问题。

三、Token：大语言模型处理语言的基本单位

人类阅读文本时，通常以字、词、句子为单位理解语言。但大语言模型并不是直接以自然语言中的“词”作为基本单位，而是先把文本切分成 Token。

Token 可以是一个字、一个词、一个子词、一个符号，甚至是词的一部分。

不同模型采用的分词方法不同，但基本思想都是：把连续文本转换成模型能够处理的离散编号序列。

例如，一个中文句子：

“深度学习改变了人工智能。”

可能被切分为若干 Token。每个 Token 会被映射成一个整数 ID，再转换成向量表示，送入神经网络计算。

图 2：从文本到 Token 的处理流程

Token 的意义非常重要，因为它影响大语言模型的输入长度、生成成本和上下文窗口大小。用户看到的是文字，但模型实际处理的是 Token 序列。

1、Token 与上下文长度

上下文窗口（Context Window）指模型一次可以处理的 Token 数量。

输入提示词、历史对话、检索文档、系统指令和模型正在生成的内容，都会占用上下文窗口。

如果上下文窗口不足，模型就无法同时看到所有信息。长文档问答、长对话记忆、复杂代码分析和多文件处理，都与上下文窗口密切相关。

2、Token 与生成成本

大语言模型通常按输入 Token 和输出 Token 计算推理成本。输入越长，模型需要处理的信息越多；输出越长，生成所需计算也越多。

因此，在实际应用中，提示词并不是越长越好，而应尽量清晰、必要、结构化。

3、Token 与语言差异

不同语言的 Token 切分效率可能不同。同样长度的中文、英文、日文或代码，转换成 Token 后数量未必相同。这意味着多语言应用中，需要注意上下文长度和成本差异。

四、Transformer：大语言模型的核心架构

现代大语言模型大多建立在 Transformer 架构之上。

Transformer 的关键贡献在于，它使用注意力机制直接建模序列中不同位置之间的关系，从而能够高效处理长距离依赖，并适合并行计算。

原始 Transformer 论文明确提出，该架构完全基于注意力机制，舍弃了传统序列建模中常见的循环结构和卷积结构。

图 3：Transformer 的基本结构示意图

Transformer 的基本组成包括输入嵌入、位置编码、自注意力机制、前馈神经网络、残差连接和层归一化等部分。

1、Embedding：把 Token 转换成向量

Token ID 本身只是整数编号，不能直接表达语义。模型需要先通过嵌入层（Embedding Layer）把 Token 转换成向量。

例如，“医生”“医院”“疾病”这类词在语义上可能更接近，而“医生”和“篮球”则语义距离较远。

Embedding 的作用就是把离散符号映射到连续向量空间，使模型能够用数学方式处理语义关系。

2、位置编码：让模型知道顺序

Transformer 本身并不像 RNN 那样天然按时间顺序逐步处理序列。因此，需要加入位置信息，让模型知道 Token 在句子中的位置。

例如，“狗咬人”和“人咬狗”包含相同的字，但意思完全不同。如果模型不知道顺序，就无法正确理解句子。

位置编码（Positional Encoding）的作用就是把“第几个 Token”这一信息加入模型输入中，使模型能够区分不同位置上的词语。

3、自注意力机制：让每个 Token 理解上下文

自注意力机制（Self-Attention）是 Transformer 的核心。它允许序列中的每个 Token 根据上下文动态关注其他 Token。

例如，在句子“苹果发布了新手机，它的摄像头更清晰”中，“它”指代的是“新手机”，而不是“苹果”这个水果。

模型需要根据上下文判断词语之间的关系。自注意力机制就是帮助模型建立这种关联的关键结构。

图 4：自注意力机制的直观解释

自注意力的典型计算形式可以写成：

其中：

• Q 表示 Query，即当前 Token 想要查询什么信息

• K 表示 Key，即其他 Token 提供什么可匹配的信息

• V 表示 Value，即真正被汇总的信息内容

• dₖ 表示 Key 向量的维度，用于缩放点积结果

• softmax 用于把相关性分数转换为权重分布

通俗地说，自注意力机制就是让模型在理解某个词时，自动判断“当前最应该关注句子中的哪些词”。

4、多头注意力：从多个角度理解关系

多头注意力（Multi-Head Attention）可以让模型从多个角度同时观察上下文。有的注意力头可能关注语法关系，有的可能关注指代关系，有的可能关注主题关系，有的可能关注格式结构。

这种机制提升了模型处理复杂语言关系的能力。

5、前馈网络、残差连接与层归一化

Transformer 中的前馈网络用于进一步变换每个位置上的表示；

残差连接可以缓解深层网络训练困难，使信息更容易跨层流动；

层归一化则有助于稳定训练过程。

这些结构共同构成了现代大语言模型的基础模块。模型通过堆叠大量 Transformer 层，不断增强语言表示和生成能力。

相关文章：