当前位置：首页 > news >正文

大模型基础（二）：必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》

news 2026/4/19 22:38:37

本文承接上篇《什么是LLM》，用最通俗、最直白的方式，把大模型最核心的5个技术概念一次性讲透。看完这篇，你再读任何大模型文章、文档、论文都不会再懵。

前言

在上一篇文章里，我们搞懂了什么是大语言模型（LLM）、狭义大模型与广义大模型的区别，以及大模型能做什么、不能做什么。

但只要你开始深入使用、部署、学习大模型，就会频繁遇到这些词：
Token、上下文长度、Embedding、预训练、微调。
它们是大模型的“底层语言”，不懂这5个概念，就很难真正理解大模型。

这篇文章不讲复杂公式、不堆专业术语，用大白话+生活例子，带你彻底吃透。

一、Token：大模型眼里的“文字单位”

1. 什么是Token？

Token（词元）是大模型处理文本的最小单位。
模型不直接认识汉字、英文单词，它只认识Token。

可以简单理解为：

汉字 ≈ 1个Token
英文单词 ≈ 1个Token
数字、符号、标点 ≈ 1个Token

2. 官方换算规则

1个中文字符 ≈ 0.6个Token（近似1个）
1个英文字符 ≈ 0.3个Token
日常使用可以直接记：1个汉字 ≈ 1个Token

3. 为什么要懂Token？

计费：API按Token收费（输入+输出）
限制：模型一次能处理的文字上限由Token决定
效率：文本越长，Token越多，推理越慢

举个例子：
“人工智能正在改变世界”
分词后：人工、智能、正在、改变、世界 → 5个Token

一句话总结：
Token就是大模型的“文字货币”，一切计算、长度、费用都按它算。

二、上下文窗口（Context Window）：模型一次能“记住”多少内容

1. 什么是上下文窗口？

上下文窗口 = 模型单次推理能处理的最大Token总数。
它包含两部分：

你输入的内容（问题、文档、对话历史）
模型输出的回答

两者加起来不能超过上限。

2. 常见上下文长度

小模型：2K、4K、8K
通用模型：32K、64K
长文本模型：128K、256K、1M以上

64K Token ≈ 4.8万字
128K Token ≈ 9.6万字

3. 上下文窗口决定什么？

能不能读完整篇长文档
能不能记住多轮对话
能不能处理长代码、长报告
能不能做复杂的总结与分析

比如：
你让模型读一份10万字的报告，如果模型只有64K窗口，就读不完，必须分段处理。

一句话总结：
上下文窗口越大，模型“一次性看懂”的内容越多，处理长文本越强。

三、Embedding（向量化）：把文字变成模型能懂的数字

1. 什么是Embedding？

Embedding（词嵌入/向量化）就是把文字变成高维向量。
模型不认识文字，只认识数字，所以必须做这一步。

通俗理解：

文字 → 编码 → 一串数字（如 [0.2, -0.5, 0.7, ...]）
这串数字能保留语义：意思相近的词，向量距离很近

2. 向量化有什么用？

让模型理解词语之间的关系（近义词、反义词、上下位）
支持语义检索（搜意思，不搜关键词）
是RAG（知识库）的核心基础
所有多模态模型（图文、音视频）都依赖它

3. 文本处理标准三步流程

分词：把句子切成Token
映射ID：给每个Token一个唯一编号
Embedding：把编号变成高维向量

一句话总结：
Embedding就是把人类语言“翻译”成机器语言，是大模型理解语义的关键。

四、预训练（Pre-training）：大模型“学会知识”的阶段

1. 什么是预训练？

预训练是用海量文本，让模型从零学到语言规律与世界知识的过程。
这是大模型最耗时、最烧钱、最核心的一步。

2. 预训练学什么？

语法、逻辑、常识
世界知识（历史、地理、科技、文化）
语言风格、行文结构
代码、专业领域知识

训练目标非常简单：
根据上文，预测下一个Token。

3. 预训练的特点

数据量：数千亿～数万亿Token
硬件：上千张A100/H100 GPU
时间：数周到数月
结果：得到一个基础模型（Base Model）
它会续写文本，但不一定听懂人类指令。

一句话总结：
预训练 = 大模型“上小学到博士”，把人类所有知识学一遍。

五、微调（Fine-tuning）：让模型“听懂人话、乖乖做事”

1. 什么是微调？

微调是在预训练模型基础上，用高质量指令数据，让模型学会遵循人类意图。
最常见的叫 SFT（监督微调）。

2. 微调做什么？

让模型听懂指令：“总结”“翻译”“写代码”“解释”
让输出更规范、更安全、更有用
适配特定场景：客服、法律、教育、代码

例子：
输入：复旦大学有几个校区？
输出：复旦大学有4个校区……

模型从“随机续写”变成“准确回答”。

3. 微调 vs 预训练

预训练：学知识，耗时长、成本极高
微调：学指令，耗时短、成本低
顺序：先预训练，再微调

一句话总结：
预训练让模型“有知识”，微调让模型“懂指令、会干活”。

六、5大概念串起来：大模型工作的完整流程

用一段极简流程帮你打通逻辑：

你输入文字 → 分词成Token
文字转为 Embedding向量
模型在 上下文窗口 内读取信息
模型用 预训练 学到的知识理解语义
模型用微调学到的规则生成回答

这就是大模型从输入到输出的完整过程。

七、总结：5句话背下大模型核心

Token 是模型的最小文字单位，决定长度与费用。
上下文窗口 是模型一次能处理的最大文本长度。
Embedding 把文字变向量，让模型理解语义。
预训练 让模型学习海量知识。
微调让模型听懂指令、对齐人类需求。

只要记住这5个概念，你就已经超过了80%的初学者，能看懂绝大多数大模型技术文章、教程、文档。

查看全文

http://www.jsqmd.com/news/668136/

PvZ Toolkit终极指南：植物大战僵尸PC版最强修改器使用教程

告别乱糟糟的代码！手把手教你为微信小程序配置Prettier（支持WXML/WXSS自动格式化）

用Python模拟10000次，我彻底搞懂了那个反直觉的“三门问题”

暗黑破坏神2现代重生：D2DX终极优化指南

告别Socket编程：用RDMA Verbs API手把手教你构建一个高性能网络应用（附完整代码）

Day52函数剩余参数和展开运算符

APK-Installer：在Windows上无缝运行Android应用的三大价值突破

2026届学术党必备的十大降AI率平台实测分析

2026届最火的五大AI辅助写作助手解析与推荐

OpenCore Legacy Patcher：让老旧Mac重获新生的3个关键步骤

Simulink自动代码生成保姆级教程：从模型到C代码的完整配置流程（基于Embedded Coder）

告别ResNet50？用Pyramid Vision Transformer（PVT）在COCO上轻松提升4个AP点

2026最权威的五大AI学术平台推荐榜单

从日光灯到CMOS：深入传感器层面，聊聊视频监控中Banding现象的检测与算法消除

别再踩坑了！手把手教你用tar.xz包在CentOS 7上安装MySQL 8.0（含Mariadb冲突解决）

控制图管理化技术中的控制图计划控制图实施控制图验证

不只是.ts后缀：用Python批量处理m3u8下载中的‘异形’视频分片（附完整脚本）

（一）LTspice：从理论传递函数到仿真波形的实战指南

嵌入式Linux新手避坑：U-Boot下操作NAND Flash的5个常见误区与安全指南

Vector-CANoe实战：CAPL编程与NetWork Node节点深度配置指南

别再只会用HttpClient了！用C# Socket手搓一个TCP聊天室（WinForms实战）

AD9361寄存器配置全攻略：从SPI到PS的实战避坑指南（附完整代码）

东方仙盟神识训练erp-[AI人工智能(九十三)]—东方仙盟

QT QChartView 交互增强：从十字线随动到流畅缩放平移的实战解析

Ollama/vLLM/llama.cpp实测

2026奇点大会未公开议程泄露：3家国家实验室联合演示AGI闭环材料研发系统（含实时失败回溯日志）

FPC柔性电路板设计实战：从需求分析到成本优化的全流程解析

用不到50块钱的FM模块，我把旧音箱改造成了无线家庭广播系统

5分钟快速上手：Android Studio中文语言包完整配置指南

S32K144之ADC实战：从硬件交错到软件触发的精密数据采集

前言