当前位置：首页 > news >正文

AI 基础概念

news 2026/3/26 22:12:46

一、AI基础概念

1.1、大语言模型（LLM）

大语言模型（Large Language Model）是一种能够理解和生成人类语言的 AI 系统。ChatGPT、Claude、Gemini、DeepSeek 都是大语言模型。

为什么叫 “大” 模型呢？因为这些模型的参数量非常庞大，动辄几十亿甚至上万亿个参数。参数越多，模型通常越聪明，但也越消耗计算资源。

你可以把大语言模型理解成一个读过海量书籍和代码的超级学霸，它见过无数的编程案例，所以能帮你写代码、解释代码、修复 Bug。

除了文本大语言模型之外，AI 领域还有专门处理图片的视觉模型（比如 Stable Diffusion）、处理语音的音频模型（比如 Whisper）、以及能同时处理文字、图片、音频的多模态模型（如 GPT-4o、Gemini）。在 AI 编程时，我们主要和文本大语言模型打交道。

1.2、TOKEN

Token 是 AI 模型处理文本的基本单位。你可以简单理解为“词块”。

Token 是你必须掌握的核心概念，因为 AI 服务通常按照 Token 收费。你输入的文字和 AI 输出的文字都会消耗 Token。Token 用得越多，花的钱就越多。

在英文中，一个 Token 大约是一个单词或单词的一部分。在中文中，一个汉字通常是 1 ~ 2 个 Token

举个例子来帮助大家理解：

“Hello World” 大约是 2 个 Token
“你好世界” 大约是 4 ~ 6 个 Token

目前很多 AI 编程工具（比如 Cursor、Claude Code）都自带了 Token 消耗量的实时统计和展示，方便你随时掌握用量和成本。

1.3、输入 Token 和输出 Token

AI 服务在计费时，一般会分别计算输入和输出的 Token。

输入 Token：你发给 AI 的内容，比如提示词、代码、文件等
输出 Token：AI 返回给你的内容，比如回答、生成的代码、工具调用指令等

一般来说，输出 Token 比输入 Token 更贵。以 Claude Sonnet 4 为例，输入价格是 3 美元/百万 Token，输出价格是 15 美元/百万 Token，贵了 5 倍。这是因为生成内容比理解内容更消耗算力。

最简单的一个省 Token 小技巧是：用心编写简洁清晰的提示词，让 AI 一次就能理解你的需求，减少反复对话。

1.4、模型参数

参数是模型在训练过程中学到的 “知识点”，用数字的形式存储在模型中。

举个好理解的例子，模型在训练时读到了大量 “天空是蓝色的” 这类内容，它就会在参数中记住 “天空” 和 “蓝色” 之间的关联关系。参数越多，模型能记住的知识和关联就越丰富。

参数量直接影响模型的能力和使用成本。参数越多，模型越聪明，但运行时消耗的算力（GPU 计算资源）也越多，所以价格也越贵。

目前主流大模型中，明确公开参数量的有：
1、DeepSeek-V3：6710 亿参数（采用 MoE 混合专家架构，实际激活 370 亿）
2、Qwen3-235B：2350 亿参数（通义千问系列，激活 220 亿）
3、Llama 4 Scout：1090 亿参数（Meta 开源模型，激活 170 亿）

值得一提的是，即使是同一系列的大模型，厂商也会提供不同参数量的版本供你选择。

1.5、模型训练和推理

训练（Training）是让 AI 模型从大量数据中学习知识的过程。这个过程需要海量的计算资源和时间，一般由 AI 公司完成。绝大多数情况下，你不需要自己训练模型，直接用训练好的成品就行。

推理（Inference）是模型训练完成、具备了知识之后，用学到的知识来回答问题、生成内容的过程。我们日常使用 AI 工具，比如和 ChatGPT 对话、让 Cursor 写代码，本质上都是 AI 模型在进行推理。

1.6、模型微调（Fine-tuning）

微调是在已有模型的基础上，用特定领域的数据继续训练，让模型在某个领域表现更好。

比如，你可以用大量的医学资料微调一个模型，让它成为医学专家。或者用你公司的代码库微调，让它更了解你的项目风格。

对于普通用户来说，微调成本较高，一般不需要自己做，直接使用现成的模型就够了。不过，很多大模型应用开发平台（比如阿里云百炼、火山引擎等）都提供了模型微调的能力，降低了微调的门槛。

1.7、上下文窗口

上下文窗口（Context Window）是指 AI 模型一次能 “记住” 的最大内容量，用 Token 来衡量。

不同模型的上下文窗口大小不同：

GPT-4o：128K Token（约 10 万中文字）

Claude Opus 4.6：标准 200K Token，支持扩展到 1M Token（约 75 万中文字）