AI 技术生态指南
整合 AI/ML/DL 核心概念、模型对比、基础设施与工具链的完整参考。
![]()
你是否也有这些困惑?
🤔 GPT、Claude、Gemini、DeepSeek、Qwen…20+ 模型到底怎么选?
🤔 MCP 和 A2A 这两个新协议有什么区别?谁提出的?要学哪个?
🤔 Agent 开发到底用什么框架?LangChain、LangGraph、CrewAI 还是 AutoGen?
🤔 本地跑大模型需要什么配置?A100 还是 RTX 4090 就够了?
🤔 Claude Code 的 Skill 是什么?和 MCP 有什么区别和联系?
这篇文章就是你的答案 —— 一份2026 年 AI 技术生态全景指南,从基础概念到选型速查,一篇覆盖。
目录
- 层级关系:AI → ML → DL → GenAI
- 机器学习范式
- 模型架构演进
- 大语言模型对比
- 多模态模型
- AI Agent 与工具链
- 推理与部署基础设施
- MCP / A2A 协议
- 主流 SDK 与框架
- AI Skill 与 CLI 工具生态
- 向量数据库与 RAG
- 模型微调与定制
- 选型速查
1. 层级关系
人工智能 (AI) ├── 机器学习 (ML) │ ├── 监督学习 (Supervised) │ ├── 无监督学习 (Unsupervised) │ └── 强化学习 (RL) ├── 深度学习 (DL) │ ├── CNN → 图像 │ ├── RNN / LSTM / GRU → 序列 │ ├── Transformer → 自注意力 │ ├── GAN / VAE / Diffusion → 生成 │ └── GNN → 图结构 └── 生成式 AI (GenAI) ├── LLM (GPT, Claude, Gemini, DeepSeek, LLaMA, Qwen) ├── 文生图 (Stable Diffusion, Midjourney, DALL·E, Flux) ├── 文生视频 (Sora, Runway, Kling, Veo) ├── 文生音乐 (Suno, Udio) └── 代码生成 (Copilot, Cursor, Codex, Claude Code)
核心概念区分
| 概念 | 英文 | 一句话定义 |
|---|
| 人工智能 | AI | 让机器模拟人类智能的总体学科 |
| 机器学习 | ML | 从数据中学习规律,无需显式编程 |
| 深度学习 | DL | 用深层神经网络进行表征学习 |
| 生成式 AI | GenAI | 能够创造新内容(文本、图像、代码等)的 AI |
| 大语言模型 | LLM | 基于 Transformer 的大规模文本生成模型 |
| 基础模型 | Foundation Model | 在海量数据上预训练的通用模型,可适配下游任务 |
| 世界模型 | World Model | 对物理世界的内部表征,用于预测和规划 |
2. 机器学习范式
监督学习
使用标注数据(X, y)学习从输入到输出的映射。
算法:线性回归、逻辑回归、SVM、决策树、随机森林、XGBoost、LightGBM、CatBoost 任务:分类、回归 场景:风控评分、推荐系统、故障预测、房价预估
无监督学习
从无标签数据中发现隐藏结构。
算法:K-Means、DBSCAN、PCA、t-SNE、UMAP、自编码器、Isolation Forest 任务:聚类、降维、异常检测 场景:用户分群、主题建模、数据可视化、欺诈检测
强化学习
智能体通过与环境交互,以奖励信号驱动策略优化。
算法:Q-Learning、DQN、PPO、SAC、TRPO、GRPO 框架:RLHF(人类反馈强化学习)、RLAIF(AI 反馈强化学习) 场景:游戏 AI、机器人控制、LLM 对齐、自动驾驶
自监督学习
从数据自身构造监督信号,无需人工标注。
代表:BERT(MLM)、GPT(自回归)、SimCLR、MoCo、MAE 核心思想:预测被遮盖部分 / 下一 token / 数据增强一致性
3. 模型架构演进
按时间线
2014: Seq2Seq + Attention (机器翻译) 2017: Transformer (Attention Is All You Need) 2018: BERT (双向编码器) / GPT (单向自回归) 2019: GPT-2 / T5 / XLNet 2020: GPT-3 (175B, 上下文学习涌现) 2021: DALL·E / CLIP / Codex 2022: ChatGPT (GPT-3.5 + RLHF) / Stable Diffusion 2023: GPT-4 / Claude 2 / Gemini / LLaMA 2 / Mixtral (MoE) 2024: Claude 3 / GPT-4o / Gemini 2 / DeepSeek-V3 / Qwen 2.5 2025: Claude 4 / GPT-5 / DeepSeek-R1 / Gemini 2.5 / 推理模型爆发 2026: Claude Opus 4.6 / 多模态 Agent / A2A 协议 / MCP 生态
架构对比
| 架构 | 核心机制 | 代表模型 | 优势 | 劣势 |
|---|
| Encoder-Only | 双向注意力 | BERT, RoBERTa | 理解任务 | 不能生成 |
| Decoder-Only | 因果注意力 | GPT, LLaMA, Claude | 文本生成 | 无法做双向理解 |
| Encoder-Decoder | 交叉注意力 | T5, BART | 翻译/摘要 | 效率低 |
| MoE | 稀疏专家混合 | Mixtral, DeepSeek-V3 | 高容量低算力 | 训练复杂 |
| Mamba / SSM | 状态空间模型 | Mamba, Mamba-2 | 长序列高效 | 生态小 |
| Diffusion | 逐步去噪 | SD, DALL·E, Flux | 图像质量高 | 推理慢 |
| 混合模型 | 多架构融合 | Gemini, GPT-4o | 多模态理解 | 复杂度高 |
4. 大语言模型对比
海外模型
| 模型 | 公司 | 定位 | 特点 |
|---|
| GPT-5 | OpenAI | 通用旗舰 | 最强综合能力,多模态,长上下文 |
| GPT-4o | OpenAI | 多模态 | 实时语音/视觉,性价比高 |
| o4 | OpenAI | 推理 | 深度思维链,数学/编程极强 |
| Claude Opus 4.6 | Anthropic | 安全推理 | 安全对齐,代码/分析/长文 |
| Claude Sonnet 4.6 | Anthropic | 平衡 | 速度与能力平衡,Agent 友好 |
| Claude Haiku 4.5 | Anthropic | 轻量 | 低延迟,高吞吐 |
| Gemini 2.5 Pro | Google | 通用 | 超大上下文 (1M+),多模态 |
| Gemini 2.5 Flash | Google | 轻量 | 高性价比,低延迟 |
| Llama 4 | Meta | 开源 | 开源标杆,可私有化部署 |
| Grok 4 | xAI | 实时 | 实时信息,X 平台集成 |
| Command A | Cohere | 企业 | RAG 和企业场景优化 |
国内模型
| 模型 | 公司 | 定位 | 特点 |
|---|
| DeepSeek-V4 | 深度求索 | 开源旗舰 | MoE 架构,性价比极高 |
| DeepSeek-R1 | 深度求索 | 推理 | 开源推理标杆,思维链透明 |
| Qwen 2.5/3 | 阿里 | 开源全尺寸 | 0.5B-72B 全覆盖,多模态 |
| Kimi K2 | 月之暗面 | 通用 | 超长上下文,文档分析强 |
| GLM-5 | 智谱 | 通用 | 国产自主,多模态 |
| Hunyuan Turbo | 腾讯 | 通用 | MoE,企业生态 |
| ERNIE 5 | 百度 | 企业 | 文心,企业级应用 |
| Yi | 零一万物 | 开源 | MoE 架构,多语言 |
| MiniMax | MiniMax | 多模态 | 语音和视觉突出 |
| Doubao | 字节跳动 | 应用 | C 端应用,高性价比 |
推理模型对比
推理模型会在回答前进行深度思考(思维链),擅长数学、编程、逻辑推理。
| 模型 | 推理方式 | 思维链可见 | 适用场景 |
|---|
| o4 / o4-mini | 内部 CoT | 摘要 | 数学竞赛、复杂编程 |
| DeepSeek-R1 | 显式 CoT | 完整可见 | 代码、数学、逻辑 |
| Claude Opus 4.6 (thinking) | 显式 CoT | 完整可见 | 代码分析、架构设计 |
| QwQ | 显式 CoT | 完整可见 | 数学、编程 |
| Gemini 2.5 Pro (thinking) | 显式 CoT | 可见 | 复杂推理 |
选型建议
| 场景 | 推荐模型 | 理由 |
|---|
| 日常编程助手 | Claude Sonnet 4.6 | 代码质量好,速度适中 |
| 复杂架构/长文分析 | Claude Opus 4.6 | 思考深度强,200K 上下文 |
| 高吞吐/低延迟 | Claude Haiku 4.5 / Gemini Flash | 成本低,响应快 |
| 多模态交互 | GPT-4o / Gemini 2.5 Pro | 原生多模态 |
| 开源私有化 | DeepSeek-V3 / Qwen 3 / Llama 4 | 可控、可定制 |
| 极致推理 | o4 / DeepSeek-R1 | 数学/算法竞赛级 |
| RAG / 企业搜索 | Command A / Claude | RAG 优化 |
| 超长文档 | Gemini 2.5 Pro / Kimi | 100 万+ tokens |
| 中文场景 | Qwen 2.5 / DeepSeek-V3 / ERNIE | 中文优化 |
5. 多模态模型
文生图
| 模型 | 架构 | 特点 |
|---|
| Stable Diffusion 3.5 | DiT + Flow | 开源,可本地运行 |
| Flux.1 | DiT + Flow | 文本遵循度高,质量顶级 |
| DALL·E 4 | Diffusion | 自然语言理解强 |
| Midjourney V7 | 未公开 | 艺术风格丰富 |
| Imagen 3 | Diffusion | 照片级真实感 |
| Ideogram 3 | — | 文字渲染准确 |
文生视频
| 模型 | 公司 | 特点 |
|---|
| Sora 2 | OpenAI | 物理世界模拟,最长 1 分钟 |
| Runway Gen-4 | Runway | 专业影视级 |
| Veo 3 | Google DeepMind | 高质量长视频 |
| Kling 2 | 快手 | 国产领先,1080p |
| Wan2.1 | 阿里 | 开源可本地 |
| Pika 2 | Pika Labs | 创意特效 |
语音 & 音乐
| 类型 | 代表模型 | 特点 |
|---|
| TTS | ElevenLabs, GPT-4o TTS, ChatTTS | 自然度接近人类 |
| STT | Whisper v3, Gemini STT | 多语言,抗噪 |
| 实时语音 | GPT-4o Realtime, Gemini Live | 低延迟对话 |
| 音乐生成 | Suno v4, Udio v2 | 完整歌曲生成 |
| 音效 | Stable Audio, AudioCraft | 文本到音效 |
视觉理解 (VLM)
| 模型 | 视觉能力 |
|---|
| GPT-4o / GPT-5 | 照片、图表、文档、视频 |
| Claude Opus/Sonnet 4.6 | 照片、PDF、图表、截图 |
| Gemini 2.5 Pro | 照片、视频、长视频分析 |
| Qwen-VL | 照片、文档、视频 |
| InternVL | 开源多尺度视觉 |
6. AI Agent 与工具链
Agent 架构
用户指令 ↓ LLM (规划 + 推理) ↓ Tool Use / Function Calling ├── 代码执行 (Python, Bash, SQL) ├── 网络搜索 (Tavily, Brave, Google) ├── 文件操作 (读/写/编辑) ├── 浏览器操作 (Playwright, Agent-Browser) ├── API 调用 (REST, GraphQL) └── 数据库查询 ↓ 结果汇总 → 用户
Agent 框架对比
| 框架 | 语言 | 定位 | 特点 |
|---|
| Claude Code | — | AI 编程 CLI | 原生工具链,Git/文件/终端 |
| Claude Agent SDK | Python/TS | Agent 开发 | Anthropic 官方 Agent SDK |
| LangChain | Python/TS | 通用 Agent | 生态最大,组件丰富 |
| LangGraph | Python | 有状态 Agent | 图编排,复杂工作流 |
| CrewAI | Python | 多 Agent | 角色分工,协作 |
| AutoGen | Python | 多 Agent | 微软出品,对话式 |
| Agno | Python | 轻量 Agent | 零样板,高性能 |
| Pydantic AI | Python | 结构化 | Pydantic 集成 |
| Vercel AI SDK | TS | Web Agent | 流式 UI,前端友好 |
| AWS Strands | Python | 企业 Agent | AWS 生态集成 |
Agent 设计模式
1. ReAct (Reason + Act) — 思考 → 行动 → 观察 → 循环 2. Plan-and-Execute — 先制定计划,再逐步执行 3. Multi-Agent Collaboration — 多个 Agent 分工协作 4. Tool Router — 根据意图路由到不同工具 5. Reflexion — 自我反思和纠错 6. Tree-of-Thought — 多路径探索,选最优解
Function Calling vs Tool Use
| 维度 | Function Calling | Tool Use |
|---|
| 代表 | OpenAI, Google | Anthropic |
| 定义方式 | JSON Schema | JSON Schema + description |
| 调用方式 | API 参数传 tools | API 参数传 tools |
| 批量调用 | 支持 parallel | 支持 parallel |
| 强制调用 | tool_choice 参数 | tool_choice 参数 |
| 本质 | 相同机制,不同命名 | — |
7. 推理与部署基础设施
GPU 选型
| GPU | 显存 | 定位 | 适合 |
|---|
| H100 / H200 | 80/141 GB | 训练旗舰 | 大模型训练 |
| B200 | 192 GB | Blackwell 旗舰 | 万亿参数训练 |
| A100 | 40/80 GB | 上一代训练 | 性价比训练 |
| L40S | 48 GB | 推理优化 | 生产推理 |
| RTX 4090 | 24 GB | 消费级 | 小模型微调 |
| RTX 5090 | 32 GB | 消费级旗舰 | 本地推理 |
| A10 | 24 GB | 入门推理 | 低成本推理 |
| Ascend 910B | 64 GB | 国产替代 | 华为生态 |
推理引擎
| 引擎 | 特点 | 适用场景 |
|---|
| vLLM | PagedAttention,高吞吐 | 生产级 API 推理 |
| TensorRT-LLM | NVIDIA 优化,极速 | 英伟达 GPU |
| Ollama | 一键本地部署,极简 | 本地开发/测试 |
| llama.cpp | CPU/GPU 混合,量化 | 消费级硬件 |
| SGLang | 结构化生成,RadixAttention | 复杂推理 |
| LMDeploy | 吞吐优化,TurboMind | 国产芯片 |
| MLX | Apple Silicon 优化 | Mac 本地推理 |
| TGI | HuggingFace 官方 | HuggingFace 生态 |
部署模式
开发测试 生产推理 边缘部署 │ │ │ Ollama vLLM / TGI llama.cpp llama.cpp Triton Server ONNX Runtime MLX (Mac) Text Gen Inference MLC-LLM
8. MCP / A2A 协议
MCP (Model Context Protocol)
Anthropic 提出的开放协议,让 AI 模型与外部工具/数据安全交互。
┌──────────────────────────────────┐ │ MCP Host (Claude) │ │ │ │ ┌──────────┐ ┌──────────┐ │ │ │ MCP Client│ │ MCP Client│ │ │ └─────┬─────┘ └─────┬─────┘ │ │ │ │ │ └────────┼───────────────┼──────────┘ │ │ ┌────▼───┐ ┌────▼───┐ │ File │ │ DB │ ... MCP Servers │ Server │ │ Server │ └────────┘ └────────┘
| 概念 | 角色 | 说明 |
|---|
| MCP Host | 消费者 | AI 应用 (Claude Desktop, Claude Code) |
| MCP Client | 连接器 | 与 Server 建立 1:1 连接 |
| MCP Server | 提供者 | 暴露工具/资源/提示 |
| Transport | 传输层 | stdio 或 HTTP+SSE |
A2A (Agent-to-Agent Protocol)
Google 提出的协议,让不同 Agent 之间协作通信。
| 维度 | MCP | A2A |
|---|
| 提出者 | Anthropic | Google |
| 目的 | LLM ↔ 工具/数据 | Agent ↔ Agent |
| 通信方向 | Client-Server | Peer-to-Peer |
| 类比 | USB 连接外设 | HTTP 连接服务 |
| 核心概念 | Tools, Resources, Prompts | Task, Agent Card |
| 传输 | stdio, HTTP+SSE | HTTP + JSON-RPC |
两者互补:MCP 连接工具,A2A 连接 Agent。实践中可以叠加使用。
9. 主流 SDK 与框架
LLM 调用 SDK
| SDK | 语言 | 覆盖范围 |
|---|
| OpenAI SDK | Python/TS | GPT 系列 |
| Anthropic SDK | Python/TS | Claude 系列 |
| Google GenAI SDK | Python/TS | Gemini 系列 |
| Vercel AI SDK | TS | 多厂商统一接口 |
| LangChain | Python/TS | 全链路 |
| LiteLLM | Python | 多厂商代理/统一格式 |
| OpenRouter | REST | 200+ 模型统一 API |
训练框架
| 框架 | 特点 |
|---|
| PyTorch | 研究首选,动态图 |
| JAX | Google,函数式,TPU 友好 |
| Transformers | HuggingFace,模型库最大 |
| DeepSpeed | 微软,ZeRO 并行 |
| Megatron-LM | NVIDIA,张量并行 |
| Unsloth | 微调加速 2-5x |
| Axolotl | 微调脚手架 |
| LLaMA-Factory | 中文友好,Web UI 微调 |
ML 平台
| 平台 | 定位 |
|---|
| HuggingFace | 模型仓库 + 社区 |
| ModelScope | 国内模型仓库 |
| Weights & Biases | 实验追踪 |
| MLflow | 生命周期管理 |
| Ollama | 本地推理 |
| LM Studio | 桌面推理 |
10. AI Skill 与 CLI 工具生态
什么是 Skill?
Skill 是 AI Agent 的可插拔能力模块,相当于给 AI 安装"技能包"。每个 Skill 包含特定领域的指令、工具配置和最佳实践,让 AI 在特定任务上表现更专业。
Skill = 专业指令 + 工具权限 + 最佳实践
| 维度 | Skill | MCP Server | 传统 Plugin |
|---|
| 本质 | 纯指令/配置包 | 外部服务进程 | 代码扩展 |
| 运行位置 | AI 内部(注入 prompt) | 外部(独立进程) | 外部/内部 |
| 通信 | 无(静态注入) | stdio / HTTP+SSE | API 调用 |
| 复杂度 | 低(Markdown/YAML) | 中(需开发 Server) | 高(需编程) |
| 适用 | 领域知识、工作流指导 | 提供外部数据/能力 | 深度功能扩展 |
| 加载方式 | 对话时动态注入指令 | 生命周期内持续连接 | 安装后常驻 |
Skill 与 MCP 的关系:Skill 告诉 AI “怎么做”,MCP 提供"用什么做"。Skill 可以声明依赖某个 MCP Server 的工具,两者协同工作。
Claude Code Skills
Claude Code 内置 Skill 系统,支持个人级和项目级技能。
~/.claude/skills/ ← 个人技能(所有项目可用) ├── agent-browser/ │ ├── SKILL.md │ └── _meta.json └── my-custom-skill/ └── SKILL.md .claude/skills/ ← 项目技能(仅当前项目) └── project-conventions/ └── SKILL.md
SKILL.md 结构:
--- name: agent-browser description: Headless browser automation CLI optimized for AI agents metadata: {"emoji":"🌐","requires":{"commands":["agent-browser"]}} --- # Agent Browser Skill ## Core Workflow [具体指令和工作流...] ## Key Commands [命令参考...] ## Best Practices [最佳实践...]
常用 Skill 类型:
| Skill 类型 | 示例 | 作用 |
|---|
| 浏览器自动化 | agent-browser | 无头浏览器操作,页面快照/交互 |
| 代码审查 | review-pr | PR 审查工作流 |
| 提交辅助 | commit | 规范化 Git 提交 |
| PDF 处理 | pdf | PDF 读取/生成 |
| 定时任务 | loop | 循环执行指定操作 |
| 配置管理 | update-config | 管理 Claude Code 配置 |
| 代码优化 | simplify | 审查代码质量和复用性 |
| API 开发 | claude-api | Claude API/SDK 开发指导 |
AI CLI 工具矩阵
除了模型 API 和 IDE 插件,CLI 工具是 AI 开发者的第三大武器。
浏览器自动化
| 工具 | 特点 | 适用 |
|---|
| agent-browser | 无障碍树快照 + ref 定位,专为 AI Agent 设计 | Agent 工作流 |
| Playwright | 多浏览器,全 API,生态最完善 | E2E 测试/AI 浏览 |
| Puppeteer | Chrome-only,轻量 | 爬虫/截图 |
| Selenium | 最成熟,多语言 | 传统自动化 |
agent-browser 核心命令速查:
# 安装npminstall-gagent-browser agent-browserinstall# 下载 Chromium# 导航与快照agent-browseropenhttps://example.com agent-browser snapshot-i--json# -i 交互元素, --json JSON输出# 元素交互 (ref-based, 确定性定位)agent-browser click @e2 agent-browser fill @e3"text"agent-browser press"Enter"# 状态获取agent-browser get text @e1--jsonagent-browser get url--jsonagent-browser get title--json# 等待策略agent-browserwait@e2 agent-browserwait--loadnetworkidle agent-browserwait--text"Welcome"# 多会话隔离agent-browser--sessionadminopensite.com agent-browser--sessionuseropensite.com# 状态持久化(跳过登录)agent-browser state save auth.json agent-browser state load auth.json
agent-browser vs Playwright 选型:
| 场景 | 推荐 |
|---|
| AI Agent 自动化工作流 | agent-browser (ref 定位更稳定) |
| 传统 E2E 测试 | Playwright (生态成熟) |
| 需要截图/PDF 分析 | 二者均可 |
| 多步骤复杂交互 | agent-browser (snapshot-ref 模式) |
| CI/CD 集成 | Playwright |
AI 编程 CLI
| 工具 | 定位 | 特点 |
|---|
| Claude Code | Anthropic 官方 | 深度代码理解,Agent 原生 |
| Gemini CLI | Google 官方 | 免费额度,Google 生态 |
| GitHub Copilot CLI | GitHub | 终端命令补全 |
| aider | 开源 | Git 感知,多模型支持 |
| Codex CLI | OpenAI | 轻量终端 Agent |
| Cursor CLI | Cursor | IDE 配套终端工具 |
模型管理 CLI
| 工具 | 用途 |
|---|
| Ollama CLI | 本地模型拉取/运行/管理 |
| huggingface-cli | HF 模型下载/上传 |
| litellm | 多厂商标配代理 |
Skill 开发流程
1. 确定场景 → 什么任务需要 Skill? 2. 编写 SKILL.md → 用 Markdown 写指令和工作流 3. 测试 → 在对话中验证 Skill 触发和行为 4. 迭代 → 优化 prompt 和工具配置 5. 分发 → 放到 ~/.claude/skills/ 或项目 .claude/skills/
11. 向量数据库与 RAG
RAG 架构 (检索增强生成)
用户查询 → Embedding → 向量检索 → Top-K 文档 → LLM 生成 → 带引用的答案
向量数据库对比
| 数据库 | 类型 | 特点 |
|---|
| Pinecone | 云原生 | 全托管,零运维 |
| Weaviate | 开源 | 混合搜索,GraphQL |
| Milvus | 开源 | 分布式,十亿级 |
| Qdrant | 开源 | Rust 实现,高性能 |
| Chroma | 开源 | 轻量,适合原型 |
| pgvector | PG 插件 | 与 PostgreSQL 一体化 |
| Elasticsearch | 搜索+向量 | 全文+向量混合 |
| FAISS | 库 | Meta 出品,纯向量 |
Chunking 策略
固定大小 — 简单,但可能切断语义 语义分块 — 按段落/句子边界分割 递归分块 — 按分隔符层级分割 Agent 分块 — LLM 感知的智能分块
12. 模型微调与定制
微调方法
| 方法 | 简介 | 显存需求 |
|---|
| Full Fine-Tuning | 全参数更新 | 最高 (16× 模型大小) |
| LoRA | 低秩适配,旁路矩阵 | 极低 (7B 模型 ~6GB) |
| QLoRA | LoRA + 4-bit 量化 | 最低 (7B 模型 ~4GB) |
| Adapter | 插入小型适配层 | 低 |
| Prefix Tuning | 学习虚拟 token | 低 |
| P-Tuning v2 | 深层提示微调 | 低 |
| DPO | 直接偏好优化 | 中(不需要奖励模型) |
Prompt 工程
Zero-shot — 不给示例 Few-shot — 给 2-5 个示例 Chain-of-Thought — "让我们一步步思考" Tree-of-Thought — 多路径探索 Self-Consistency — 多次采样投票 ReAct — 思考+行动交替
13. 选型速查
根据任务类型
| 任务 | 首选 | 备选 |
|---|
| 日常编程 | Claude Sonnet 4.6 | GPT-4o, DeepSeek-V4 |
| 深度代码分析 | Claude Opus 4.6 | o4, DeepSeek-R1 |
| 快速内容生成 | GPT-4o / Claude Haiku | Gemini Flash |
| 数学推理 | o4 / DeepSeek-R1 | Claude Opus 4.6 |
| 视频理解 | Gemini 2.5 Pro | GPT-4o |
| 图像生成 | Flux.1 / Midjourney | SD 3.5 |
| 视频生成 | Veo 3 / Sora 2 | Runway, Kling |
| 私有化部署 | DeepSeek-V3 / Qwen 3 | Llama 4 |
| 本地推理 | Ollama + Qwen 2.5 (7B) | Ollama + DeepSeek-R1 (7B) |
| Agent 开发 | Claude Agent SDK | LangGraph |
| RAG 系统 | Claude + Chroma/Qdrant | GPT + Pinecone |
| 企业搜索 | Cohere Command A | Claude + pgvector |
根据资源
无 GPU,本地推理: Ollama + Qwen 2.5 (0.5B~7B) / DeepSeek-R1 (1.5B~7B) Apple Silicon → MLX + Qwen 2.5 (14B~32B) 单卡 24GB GPU (RTX 4090): 推理:7B~14B (fp16), 32B~72B (Q4) 微调:7B LoRA, 1.5B Full 单卡 80GB GPU (A100): 推理:7B~70B (fp16) 微调:70B LoRA, 7B Full 企业 API (无需 GPU): Claude API / GPT API / Gemini API / DeepSeek API
结束语
如果这篇文章对你有帮助,欢迎:
- 👍点赞收藏,方便下次查找
- 💬评论区交流你的选型经验和看法
- 📌分享给正在学习 AI 的同事朋友
下篇预告:DeepSeek-V4 vs Claude Opus 4.6 深度对比实测
附录
常用缩写
| 缩写 | 全称 |
|---|
| LLM | Large Language Model |
| VLM | Vision Language Model |
| MoE | Mixture of Experts |
| RLHF | Reinforcement Learning from Human Feedback |
| DPO | Direct Preference Optimization |
| CoT | Chain of Thought |
| RAG | Retrieval-Augmented Generation |
| MCP | Model Context Protocol |
| A2A | Agent-to-Agent |
| SSD | State Space Model |
| DiT | Diffusion Transformer |
| LoRA | Low-Rank Adaptation |
| GGUF | GPT-Generated Unified Format (量化格式) |
关键时间节点
| 时间 | 事件 |
|---|
| 2012 | AlexNet 赢得 ImageNet,深度学习爆发 |
| 2017 | Transformer 架构提出 |
| 2020 | GPT-3 展示涌现能力 |
| 2022.11 | ChatGPT 发布,AI 进入大众视野 |
| 2023.03 | GPT-4 发布,多模态 |
| 2024.05 | GPT-4o 发布,原生多模态 |
| 2024.11 | Anthropic 发布 MCP 协议 |
| 2025.01 | DeepSeek-R1 开源推理模型震撼业界 |
| 2025.04 | Google 发布 A2A 协议 |
| 2025.06 | Claude Opus 4.6 / GPT-5 时代 |
| 2026.05 | 多模态 Agent + MCP/A2A + Skill 生态成熟 |
一图速览:2026 AI 技术生态全景
┌─────────────────────────────────────────────┐ │ 2026 AI 技术生态全景 │ ├─────────────────────────────────────────────┤ │ │ │ 模型层 GPT-5 · Claude Opus 4.6 │ │ Gemini 2.5 · DeepSeek-V4 │ │ Qwen 3 · Llama 4 · Kimi │ │ │ │ 协议层 MCP (Anthropic) · A2A (Google) │ │ │ │ Agent层 Claude Code · LangChain │ │ CrewAI · AutoGen · Agno │ │ Claude Agent SDK · LangGraph │ │ │ │ Skill层 agent-browser · commit │ │ review-pr · pdf · claude-api │ │ loop · simplify · update-config │ │ │ │ CLI工具 agent-browser · Ollama CLI │ │ aider · litellm │ │ │ │ 设施层 vLLM · Ollama · llama.cpp │ │ A100 · H100 · B200 · RTX 5090 │ │ │ │ 数据层 RAG · Chroma · Milvus · Qdrant │ │ Pinecone · pgvector · FAISS │ │ │ └─────────────────────────────────────────────┘