当前位置：首页 > news >正文

【AI】55个AI基础概念(收藏版)

news 2026/7/1 20:56:09

55 个 AI 基础核心概念

零、术语中英文对照表

英文术语（缩写）	中文名称	简要说明
AI (Artificial Intelligence)	人工智能	让机器模拟人类智能的科学技术
NLP (Natural Language Processing)	自然语言处理	AI 领域中专注于让计算机理解和生成自然语言的分支
Token	词元 / 令牌	大语言模型处理文本的基本单位
Transformer	Transformer 架构	2017 年由 Google 提出的革命性深度学习架构，主流大模型的基石
Encoder	编码器	Transformer 中负责"理解"输入文本的组件
Decoder	解码器	Transformer 中负责"生成"输出文本的组件
Attention	注意力机制	让模型有选择性地聚焦于重要信息的机制
Self-Attention	自注意力	同一序列内部 Token 之间的注意力计算
Cross-Attention	交叉注意力	两个不同序列之间的注意力计算
LLM (Large Language Model)	大语言模型	基于 Transformer、参数规模巨大的语言模型
Pre-trained	预训练	在大规模通用语料上进行的初始训练阶段
Scaling Law	缩放法则 / 规模定律	模型性能随规模增长而可预测提升的规律
Fine-tuning	微调	在预训练模型基础上用特定数据进一步训练
SFT (Supervised Fine-Tuning)	监督微调	使用人工标注的高质量对话数据进行微调
RLHF (Reinforcement Learning from Human Feedback)	基于人类反馈的强化学习	通过人类反馈训练奖励模型，再用强化学习让模型对齐人类偏好
Prompt	提示	用户输入给大语言模型的指令、上下文等所有信息的总称
RAG (Retrieval-Augmented Generation)	检索增强生成	让大模型结合外部知识库解答问题的技术
Jailbreak	越狱	通过精心设计提示词绕过 AI 安全限制的攻击方式
Red Teaming	红队测试	主动模拟攻击来发现 AI 系统安全漏洞的测试方法
Constitutional AI	宪法 AI	Anthropic 提出的用预设行为准则让 AI 自我修正的对齐方法
Agent	智能体	能自主感知环境、规划决策并执行行动的 AI 实体
Agentic	智能体化的	描述具有 Agent 特性的系统或方法
Alignment	对齐	让 AI 的目标和价值观与人类保持一致的核心安全概念
Alignment Tax	对齐税	为提高 AI 安全性而在性能或效率上付出的代价
Instruction	指令	用户给 AI 的明确任务或要求
Temperature	温度	控制生成文本随机性的参数
Top k / Top p (Nucleus Sampling)	核采样	控制生成随机性的采样方法
Inference	推理 / 推断	模型训练完成后根据输入生成输出的过程
Context / Context Window	上下文 / 上下文窗口	模型在一次对话中能处理的最大信息量
KV Cache	键值缓存	缓存推理中间结果、加速推理的技术
Hallucination	幻觉	模型生成听起来合理但实际不真实的内容
Memory	记忆	AI 跨会话存储和调用信息的能力
CoT (Chain-of-Thought)	思维链	让模型一步步思考来解决复杂问题的技术
In-Context Learning	上下文学习	不用重新训练，仅通过输入示例就能学会新任务的能力
MoE (Mixture of Experts)	混合专家模型	按需激活部分参数，实现大模型能力、小模型成本
Multi-Modal	多模态	AI 同时处理文本、图像、音频等多种信息的能力
Benchmark	基准测试	标准化测试集，用于衡量和比较模型性能
Function Calling	函数调用	大模型判断需要调用外部工具并生成调用参数的能力
Tool	工具	AI Agent 可调用的外部功能或资源
MCP (Model Context Protocol)	模型上下文协议	Anthropic 推出的连接大模型与外部工具的统一标准
Planning	规划	Agent 将复杂目标拆解为子任务并逐步执行的能力
Agent Skill	智能体技能	Agent 框架中封装好的可复用能力模块
System 2 Thinking	系统 2 思维	慢速、深思熟虑的推理方式，提升复杂任务可靠性
Synthetic Data	合成数据	人工生成、非真实世界收集的训练数据
Edge AI	端侧 AI	将模型部署到本地设备，不完全依赖云端
Model Router	模型路由	按任务难度和成本自动选择最合适模型的调度机制
World Model	世界模型	能构建世界内部表示并预测状态变化的 AI 系统
AGI (Artificial General Intelligence)	通用人工智能	具备与人类同等智能水平、能解决各种任务的 AI
ASI (Artificial Super Intelligence)	超级人工智能	在所有领域远超人类智能水平的 AI
Embedding	嵌入 / 向量嵌入	将非结构化数据转换为数值向量的技术
Knowledge Graph	知识图谱	用图结构表示知识，由实体和关系组成
Prompt Injection	提示注入	通过嵌入恶意指令让模型忽略安全规则的攻击方式
Guardrails	安全护栏	AI 系统中防止输出有害或违规内容的安全机制
Mixture of Agents	混合智能体	多个 AI 智能体分工协作完成复杂任务的架构
Retrieval	检索器	RAG 系统中负责从知识库查找相关文档的模块
Grounding	接地 / 事实性	让模型输出与真实世界事实保持一致
Knowledge Cutoff	知识截止日期	模型训练数据的时间截止点
Reasoning	推理能力	通过逻辑分析、推导来解决问题的能力

一、基础中的基础 ——AI 与语言模型的起点

AI (Artificial Intelligence，人工智能)

机器学习：让机器从数据中学习规律和经验
深度学习：用多层神经网络模拟人脑学习
大模型 / 大语言模型：以海量数据和参数，让机器能理解和生成人类的语言

NLP (Natural Language Processing，自然语言处理)

NLP 是 AI 的一个核心子领域，专注于让计算机理解、解释、生成人类的自然语言

Token (词元 / 令牌)

Token 是大语言模型处理文本时的基本单位
一个 Token 可能是一个字、一个词，或是文本的一部分

Transformer 架构

2017 年由 Google 提出的革命性深度学习架构
几乎所有主流大模型（GPT、Claude、Gemini、LLaMA 等）都基于 Transformer
包含两个主要部分：
- Encoder (编码器)：负责 “理解” 输入文本
- Decoder (解码器)：负责 “生成” 输出文本
- 只有解码器的架构叫 “Decoder-only” 架构（如 GPT 系列）

Attention (注意力机制)

两种主要变体：
- Self-Attention (自注意力)：一段文本内部，每个 Token 都和其他所有 Token 计算关联度
- Cross-Attention (交叉注意力)：两段文本之间的注意力
让模型在处理信息时能够有选择性地聚焦于重要部分

二、大模型是怎么炼成的 —— 从预训练到微调

对比表格：Encoder 与 Decoder

对比维度	Encoder（编码器）	Decoder（解码器）
定义	Transformer 架构中负责“理解”输入文本的组件，将输入序列映射为富含语义的连续表示。	Transformer 架构中负责“生成”输出文本的组件，基于上下文和自身历史输出自回归地预测下一个 Token。
核心作用	提取句子中各 Token 的全局上下文特征，捕捉双向依赖关系，产出可用作下游任务输入的编码向量。	根据编码器（或自身）给出的上下文表示，逐词生成连贯的输出序列，天然支持从左到右的自回归生成。
典型应用场景	`BERT`、`RoBERTa`等只使用 Encoder 的模型，广泛应用于文本分类、命名实体识别、问答等理解型任务。	`GPT`系列采用 Decoder-only 架构，主要用于对话生成、故事续写、代码补全等生成型任务。
架构倾向	通常包含双向自注意力机制，能同时看到左右两侧的上下文。	使用单向（因果）自注意力，只能看到当前位置之前的内容，保证生成的一致性。

对比表格：Self-Attention 与 Cross-Attention

对比维度	Self-Attention（自注意力）	Cross-Attention（交叉注意力）
定义	在同一序列内部，让每个 Token 都与序列中的所有 Token（包括自身）计算注意力权重，得到融合全局信息的新表示。	在两个不同序列之间计算注意力，一个序列的 Token 作为 Query，从另一个序列的 Key-Value 中抽取相关信息。
核心作用	捕捉同一句子里词与词之间的依赖关系，解决长距离依赖问题，为每个词生成上下文感知的表示。	实现两个序列的信息融合，例如翻译中将源语言句子的 Key-Value 传递给解码器，使生成时能够对齐到源语内容。
典型应用场景	Transformer 的 Encoder 和 Decoder 内部都大量使用 Self-Attention；`BERT`用双向 Self-Attention 学习整句理解。	原始 Transformer 中 Decoder 的 Cross-Attention 层，接收 Encoder 的输出作为 Key-Value；图像描述、图文匹配等多模态任务中也用 Cross-Attention 对齐不同模态。
注意力流向	输入来自同一序列，Query、Key、Value 均源自同一组 Token。	Query 通常来自 Target 序列（如 Decoder 当前状态），Key、Value 来自 Source 序列（如 Encoder 输出）。