当前位置: 首页 > news >正文

大模型基础(二):必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》

本文承接上篇《什么是LLM》,用最通俗、最直白的方式,把大模型最核心的5个技术概念一次性讲透。看完这篇,你再读任何大模型文章、文档、论文都不会再懵。


前言

在上一篇文章里,我们搞懂了什么是大语言模型(LLM)、狭义大模型与广义大模型的区别,以及大模型能做什么、不能做什么。

但只要你开始深入使用、部署、学习大模型,就会频繁遇到这些词:
Token、上下文长度、Embedding、预训练、微调
它们是大模型的“底层语言”,不懂这5个概念,就很难真正理解大模型。

这篇文章不讲复杂公式、不堆专业术语,用大白话+生活例子,带你彻底吃透。


一、Token:大模型眼里的“文字单位”

1. 什么是Token?

Token(词元)是大模型处理文本的最小单位
模型不直接认识汉字、英文单词,它只认识Token。

可以简单理解为:

  • 汉字 ≈ 1个Token
  • 英文单词 ≈ 1个Token
  • 数字、符号、标点 ≈ 1个Token

2. 官方换算规则

  • 1个中文字符 ≈ 0.6个Token(近似1个)
  • 1个英文字符 ≈ 0.3个Token
  • 日常使用可以直接记:1个汉字 ≈ 1个Token

3. 为什么要懂Token?

  • 计费:API按Token收费(输入+输出)
  • 限制:模型一次能处理的文字上限由Token决定
  • 效率:文本越长,Token越多,推理越慢

举个例子:
“人工智能正在改变世界”
分词后:人工、智能、正在、改变、世界 → 5个Token

一句话总结:
Token就是大模型的“文字货币”,一切计算、长度、费用都按它算。
image
image


二、上下文窗口(Context Window):模型一次能“记住”多少内容

1. 什么是上下文窗口?

上下文窗口 = 模型单次推理能处理的最大Token总数
它包含两部分:

  • 你输入的内容(问题、文档、对话历史)
  • 模型输出的回答

两者加起来不能超过上限。

2. 常见上下文长度

  • 小模型:2K、4K、8K
  • 通用模型:32K、64K
  • 长文本模型:128K、256K、1M以上

64K Token ≈ 4.8万字
128K Token ≈ 9.6万字

3. 上下文窗口决定什么?

  • 能不能读完整篇长文档
  • 能不能记住多轮对话
  • 能不能处理长代码、长报告
  • 能不能做复杂的总结与分析

比如:
你让模型读一份10万字的报告,如果模型只有64K窗口,就读不完,必须分段处理。

一句话总结:
上下文窗口越大,模型“一次性看懂”的内容越多,处理长文本越强。
image


三、Embedding(向量化):把文字变成模型能懂的数字

1. 什么是Embedding?

Embedding(词嵌入/向量化)就是把文字变成高维向量
模型不认识文字,只认识数字,所以必须做这一步。

通俗理解:

  • 文字 → 编码 → 一串数字(如 [0.2, -0.5, 0.7, ...])
  • 这串数字能保留语义:意思相近的词,向量距离很近

2. 向量化有什么用?

  • 让模型理解词语之间的关系(近义词、反义词、上下位)
  • 支持语义检索(搜意思,不搜关键词)
  • 是RAG(知识库)的核心基础
  • 所有多模态模型(图文、音视频)都依赖它

3. 文本处理标准三步流程

  1. 分词:把句子切成Token
  2. 映射ID:给每个Token一个唯一编号
  3. Embedding:把编号变成高维向量

一句话总结:
Embedding就是把人类语言“翻译”成机器语言,是大模型理解语义的关键。


四、预训练(Pre-training):大模型“学会知识”的阶段

1. 什么是预训练?

预训练是用海量文本,让模型从零学到语言规律与世界知识的过程
这是大模型最耗时、最烧钱、最核心的一步。

2. 预训练学什么?

  • 语法、逻辑、常识
  • 世界知识(历史、地理、科技、文化)
  • 语言风格、行文结构
  • 代码、专业领域知识

训练目标非常简单:
根据上文,预测下一个Token。

3. 预训练的特点

  • 数据量:数千亿~数万亿Token
  • 硬件:上千张A100/H100 GPU
  • 时间:数周到数月
  • 结果:得到一个基础模型(Base Model)
    它会续写文本,但不一定听懂人类指令。

一句话总结:
预训练 = 大模型“上小学到博士”,把人类所有知识学一遍。


五、微调(Fine-tuning):让模型“听懂人话、乖乖做事”

1. 什么是微调?

微调是在预训练模型基础上,用高质量指令数据,让模型学会遵循人类意图
最常见的叫 SFT(监督微调)

2. 微调做什么?

  • 让模型听懂指令:“总结”“翻译”“写代码”“解释”
  • 让输出更规范、更安全、更有用
  • 适配特定场景:客服、法律、教育、代码

例子:
输入:复旦大学有几个校区?
输出:复旦大学有4个校区……

模型从“随机续写”变成“准确回答”。

3. 微调 vs 预训练

  • 预训练:学知识,耗时长、成本极高
  • 微调:学指令,耗时短、成本低
  • 顺序:先预训练,再微调

一句话总结:
预训练让模型“有知识”,微调让模型“懂指令、会干活”。


六、5大概念串起来:大模型工作的完整流程

用一段极简流程帮你打通逻辑:

  1. 你输入文字 → 分词成Token
  2. 文字转为 Embedding向量
  3. 模型在 上下文窗口 内读取信息
  4. 模型用 预训练 学到的知识理解语义
  5. 模型用 微调 学到的规则生成回答

这就是大模型从输入到输出的完整过程。


七、总结:5句话背下大模型核心

  1. Token 是模型的最小文字单位,决定长度与费用。
  2. 上下文窗口 是模型一次能处理的最大文本长度。
  3. Embedding 把文字变向量,让模型理解语义。
  4. 预训练 让模型学习海量知识。
  5. 微调 让模型听懂指令、对齐人类需求。

只要记住这5个概念,你就已经超过了80%的初学者,能看懂绝大多数大模型技术文章、教程、文档。


http://www.jsqmd.com/news/668136/

相关文章:

  • PvZ Toolkit终极指南:植物大战僵尸PC版最强修改器使用教程
  • 告别乱糟糟的代码!手把手教你为微信小程序配置Prettier(支持WXML/WXSS自动格式化)
  • 用Python模拟10000次,我彻底搞懂了那个反直觉的“三门问题”
  • 暗黑破坏神2现代重生:D2DX终极优化指南
  • 告别Socket编程:用RDMA Verbs API手把手教你构建一个高性能网络应用(附完整代码)
  • Day52函数剩余参数和展开运算符
  • APK-Installer:在Windows上无缝运行Android应用的三大价值突破
  • 2026届学术党必备的十大降AI率平台实测分析
  • 2026届最火的五大AI辅助写作助手解析与推荐
  • OpenCore Legacy Patcher:让老旧Mac重获新生的3个关键步骤
  • Simulink自动代码生成保姆级教程:从模型到C代码的完整配置流程(基于Embedded Coder)
  • 告别ResNet50?用Pyramid Vision Transformer(PVT)在COCO上轻松提升4个AP点
  • 2026最权威的五大AI学术平台推荐榜单
  • 从日光灯到CMOS:深入传感器层面,聊聊视频监控中Banding现象的检测与算法消除
  • 别再踩坑了!手把手教你用tar.xz包在CentOS 7上安装MySQL 8.0(含Mariadb冲突解决)
  • 控制图管理化技术中的控制图计划控制图实施控制图验证
  • 不只是.ts后缀:用Python批量处理m3u8下载中的‘异形’视频分片(附完整脚本)
  • (一)LTspice:从理论传递函数到仿真波形的实战指南
  • 嵌入式Linux新手避坑:U-Boot下操作NAND Flash的5个常见误区与安全指南
  • Vector-CANoe实战:CAPL编程与NetWork Node节点深度配置指南
  • 别再只会用HttpClient了!用C# Socket手搓一个TCP聊天室(WinForms实战)
  • AD9361寄存器配置全攻略:从SPI到PS的实战避坑指南(附完整代码)
  • 东方仙盟神识训练erp-[AI人工智能(九十三)]—东方仙盟
  • QT QChartView 交互增强:从十字线随动到流畅缩放平移的实战解析
  • Ollama/vLLM/llama.cpp实测
  • 2026奇点大会未公开议程泄露:3家国家实验室联合演示AGI闭环材料研发系统(含实时失败回溯日志)
  • FPC柔性电路板设计实战:从需求分析到成本优化的全流程解析
  • 用不到50块钱的FM模块,我把旧音箱改造成了无线家庭广播系统
  • 5分钟快速上手:Android Studio中文语言包完整配置指南
  • S32K144之ADC实战:从硬件交错到软件触发的精密数据采集