当前位置：首页 > news >正文

2026 AI 技术生态全景指南：从 LLM 到 Agent，从 MCP 到 A2A

news 2026/7/18 0:29:08

AI 技术生态指南

整合 AI/ML/DL 核心概念、模型对比、基础设施与工具链的完整参考。

你是否也有这些困惑？
🤔 GPT、Claude、Gemini、DeepSeek、Qwen…20+ 模型到底怎么选？

🤔 MCP 和 A2A 这两个新协议有什么区别？谁提出的？要学哪个？

🤔 Agent 开发到底用什么框架？LangChain、LangGraph、CrewAI 还是 AutoGen？

🤔 本地跑大模型需要什么配置？A100 还是 RTX 4090 就够了？

🤔 Claude Code 的 Skill 是什么？和 MCP 有什么区别和联系？
这篇文章就是你的答案 —— 一份2026 年 AI 技术生态全景指南，从基础概念到选型速查，一篇覆盖。

1. 层级关系

人工智能 (AI) ├── 机器学习 (ML) │ ├── 监督学习 (Supervised) │ ├── 无监督学习 (Unsupervised) │ └── 强化学习 (RL) ├── 深度学习 (DL) │ ├── CNN → 图像 │ ├── RNN / LSTM / GRU → 序列 │ ├── Transformer → 自注意力 │ ├── GAN / VAE / Diffusion → 生成 │ └── GNN → 图结构 └── 生成式 AI (GenAI) ├── LLM (GPT, Claude, Gemini, DeepSeek, LLaMA, Qwen) ├── 文生图 (Stable Diffusion, Midjourney, DALL·E, Flux) ├── 文生视频 (Sora, Runway, Kling, Veo) ├── 文生音乐 (Suno, Udio) └── 代码生成 (Copilot, Cursor, Codex, Claude Code)

核心概念区分

概念	英文	一句话定义
人工智能	AI	让机器模拟人类智能的总体学科
机器学习	ML	从数据中学习规律，无需显式编程
深度学习	DL	用深层神经网络进行表征学习
生成式 AI	GenAI	能够创造新内容（文本、图像、代码等）的 AI
大语言模型	LLM	基于 Transformer 的大规模文本生成模型
基础模型	Foundation Model	在海量数据上预训练的通用模型，可适配下游任务
世界模型	World Model	对物理世界的内部表征，用于预测和规划

2. 机器学习范式

监督学习

使用标注数据(X, y)学习从输入到输出的映射。

算法：线性回归、逻辑回归、SVM、决策树、随机森林、XGBoost、LightGBM、CatBoost 任务：分类、回归 场景：风控评分、推荐系统、故障预测、房价预估

无监督学习

从无标签数据中发现隐藏结构。

算法：K-Means、DBSCAN、PCA、t-SNE、UMAP、自编码器、Isolation Forest 任务：聚类、降维、异常检测 场景：用户分群、主题建模、数据可视化、欺诈检测

强化学习

智能体通过与环境交互，以奖励信号驱动策略优化。

算法：Q-Learning、DQN、PPO、SAC、TRPO、GRPO 框架：RLHF（人类反馈强化学习）、RLAIF（AI 反馈强化学习） 场景：游戏 AI、机器人控制、LLM 对齐、自动驾驶

自监督学习

从数据自身构造监督信号，无需人工标注。

代表：BERT（MLM）、GPT（自回归）、SimCLR、MoCo、MAE 核心思想：预测被遮盖部分 / 下一 token / 数据增强一致性

3. 模型架构演进

按时间线

2014: Seq2Seq + Attention (机器翻译) 2017: Transformer (Attention Is All You Need) 2018: BERT (双向编码器) / GPT (单向自回归) 2019: GPT-2 / T5 / XLNet 2020: GPT-3 (175B, 上下文学习涌现) 2021: DALL·E / CLIP / Codex 2022: ChatGPT (GPT-3.5 + RLHF) / Stable Diffusion 2023: GPT-4 / Claude 2 / Gemini / LLaMA 2 / Mixtral (MoE) 2024: Claude 3 / GPT-4o / Gemini 2 / DeepSeek-V3 / Qwen 2.5 2025: Claude 4 / GPT-5 / DeepSeek-R1 / Gemini 2.5 / 推理模型爆发 2026: Claude Opus 4.6 / 多模态 Agent / A2A 协议 / MCP 生态

架构对比

架构	核心机制	代表模型	优势	劣势
Encoder-Only	双向注意力	BERT, RoBERTa	理解任务	不能生成
Decoder-Only	因果注意力	GPT, LLaMA, Claude	文本生成	无法做双向理解
Encoder-Decoder	交叉注意力	T5, BART	翻译/摘要	效率低
MoE	稀疏专家混合	Mixtral, DeepSeek-V3	高容量低算力	训练复杂
Mamba / SSM	状态空间模型	Mamba, Mamba-2	长序列高效	生态小
Diffusion	逐步去噪	SD, DALL·E, Flux	图像质量高	推理慢
混合模型	多架构融合	Gemini, GPT-4o	多模态理解	复杂度高

4. 大语言模型对比

海外模型

模型	公司	定位	特点
GPT-5	OpenAI	通用旗舰	最强综合能力，多模态，长上下文
GPT-4o	OpenAI	多模态	实时语音/视觉，性价比高
o4	OpenAI	推理	深度思维链，数学/编程极强
Claude Opus 4.6	Anthropic	安全推理	安全对齐，代码/分析/长文
Claude Sonnet 4.6	Anthropic	平衡	速度与能力平衡，Agent 友好
Claude Haiku 4.5	Anthropic	轻量	低延迟，高吞吐
Gemini 2.5 Pro	Google	通用	超大上下文 (1M+)，多模态
Gemini 2.5 Flash	Google	轻量	高性价比，低延迟
Llama 4	Meta	开源	开源标杆，可私有化部署
Grok 4	xAI	实时	实时信息，X 平台集成
Command A	Cohere	企业	RAG 和企业场景优化

国内模型

模型	公司	定位	特点
DeepSeek-V4	深度求索	开源旗舰	MoE 架构，性价比极高
DeepSeek-R1	深度求索	推理	开源推理标杆，思维链透明
Qwen 2.5/3	阿里	开源全尺寸	0.5B-72B 全覆盖，多模态
Kimi K2	月之暗面	通用	超长上下文，文档分析强
GLM-5	智谱	通用	国产自主，多模态
Hunyuan Turbo	腾讯	通用	MoE，企业生态
ERNIE 5	百度	企业	文心，企业级应用
Yi	零一万物	开源	MoE 架构，多语言
MiniMax	MiniMax	多模态	语音和视觉突出
Doubao	字节跳动	应用	C 端应用，高性价比

推理模型对比

推理模型会在回答前进行深度思考（思维链），擅长数学、编程、逻辑推理。

模型	推理方式	思维链可见	适用场景
o4 / o4-mini	内部 CoT	摘要	数学竞赛、复杂编程
DeepSeek-R1	显式 CoT	完整可见	代码、数学、逻辑
Claude Opus 4.6 (thinking)	显式 CoT	完整可见	代码分析、架构设计
QwQ	显式 CoT	完整可见	数学、编程
Gemini 2.5 Pro (thinking)	显式 CoT	可见	复杂推理

选型建议

场景	推荐模型	理由
日常编程助手	Claude Sonnet 4.6	代码质量好，速度适中
复杂架构/长文分析	Claude Opus 4.6	思考深度强，200K 上下文
高吞吐/低延迟	Claude Haiku 4.5 / Gemini Flash	成本低，响应快
多模态交互	GPT-4o / Gemini 2.5 Pro	原生多模态
开源私有化	DeepSeek-V3 / Qwen 3 / Llama 4	可控、可定制
极致推理	o4 / DeepSeek-R1	数学/算法竞赛级
RAG / 企业搜索	Command A / Claude	RAG 优化
超长文档	Gemini 2.5 Pro / Kimi	100 万+ tokens
中文场景	Qwen 2.5 / DeepSeek-V3 / ERNIE	中文优化

5. 多模态模型

文生图

模型	架构	特点
Stable Diffusion 3.5	DiT + Flow	开源，可本地运行
Flux.1	DiT + Flow	文本遵循度高，质量顶级
DALL·E 4	Diffusion	自然语言理解强
Midjourney V7	未公开	艺术风格丰富
Imagen 3	Diffusion	照片级真实感
Ideogram 3	—	文字渲染准确

文生视频

模型	公司	特点
Sora 2	OpenAI	物理世界模拟，最长 1 分钟
Runway Gen-4	Runway	专业影视级
Veo 3	Google DeepMind	高质量长视频
Kling 2	快手	国产领先，1080p
Wan2.1	阿里	开源可本地
Pika 2	Pika Labs	创意特效

语音 & 音乐

类型	代表模型	特点
TTS	ElevenLabs, GPT-4o TTS, ChatTTS	自然度接近人类
STT	Whisper v3, Gemini STT	多语言，抗噪
实时语音	GPT-4o Realtime, Gemini Live	低延迟对话
音乐生成	Suno v4, Udio v2	完整歌曲生成
音效	Stable Audio, AudioCraft	文本到音效

视觉理解 (VLM)

模型	视觉能力
GPT-4o / GPT-5	照片、图表、文档、视频
Claude Opus/Sonnet 4.6	照片、PDF、图表、截图
Gemini 2.5 Pro	照片、视频、长视频分析
Qwen-VL	照片、文档、视频
InternVL	开源多尺度视觉

6. AI Agent 与工具链

Agent 架构

用户指令 ↓ LLM (规划 + 推理) ↓ Tool Use / Function Calling ├── 代码执行 (Python, Bash, SQL) ├── 网络搜索 (Tavily, Brave, Google) ├── 文件操作 (读/写/编辑) ├── 浏览器操作 (Playwright, Agent-Browser) ├── API 调用 (REST, GraphQL) └── 数据库查询 ↓ 结果汇总 → 用户

Agent 框架对比

框架	语言	定位	特点
Claude Code	—	AI 编程 CLI	原生工具链，Git/文件/终端
Claude Agent SDK	Python/TS	Agent 开发	Anthropic 官方 Agent SDK
LangChain	Python/TS	通用 Agent	生态最大，组件丰富
LangGraph	Python	有状态 Agent	图编排，复杂工作流
CrewAI	Python	多 Agent	角色分工，协作
AutoGen	Python	多 Agent	微软出品，对话式
Agno	Python	轻量 Agent	零样板，高性能
Pydantic AI	Python	结构化	Pydantic 集成
Vercel AI SDK	TS	Web Agent	流式 UI，前端友好
AWS Strands	Python	企业 Agent	AWS 生态集成

Agent 设计模式

1. ReAct (Reason + Act) — 思考 → 行动 → 观察 → 循环 2. Plan-and-Execute — 先制定计划，再逐步执行 3. Multi-Agent Collaboration — 多个 Agent 分工协作 4. Tool Router — 根据意图路由到不同工具 5. Reflexion — 自我反思和纠错 6. Tree-of-Thought — 多路径探索，选最优解

Function Calling vs Tool Use

维度	Function Calling	Tool Use
代表	OpenAI, Google	Anthropic
定义方式	JSON Schema	JSON Schema + description
调用方式	API 参数传 tools	API 参数传 tools
批量调用	支持 parallel	支持 parallel
强制调用	tool_choice 参数	tool_choice 参数
本质	相同机制，不同命名	—

7. 推理与部署基础设施

GPU 选型

GPU	显存	定位	适合
H100 / H200	80/141 GB	训练旗舰	大模型训练
B200	192 GB	Blackwell 旗舰	万亿参数训练
A100	40/80 GB	上一代训练	性价比训练
L40S	48 GB	推理优化	生产推理
RTX 4090	24 GB	消费级	小模型微调
RTX 5090	32 GB	消费级旗舰	本地推理
A10	24 GB	入门推理	低成本推理
Ascend 910B	64 GB	国产替代	华为生态

推理引擎

引擎	特点	适用场景
vLLM	PagedAttention，高吞吐	生产级 API 推理
TensorRT-LLM	NVIDIA 优化，极速	英伟达 GPU
Ollama	一键本地部署，极简	本地开发/测试
llama.cpp	CPU/GPU 混合，量化	消费级硬件
SGLang	结构化生成，RadixAttention	复杂推理
LMDeploy	吞吐优化，TurboMind	国产芯片
MLX	Apple Silicon 优化	Mac 本地推理
TGI	HuggingFace 官方	HuggingFace 生态

部署模式

开发测试 生产推理 边缘部署 │ │ │ Ollama vLLM / TGI llama.cpp llama.cpp Triton Server ONNX Runtime MLX (Mac) Text Gen Inference MLC-LLM

8. MCP / A2A 协议

MCP (Model Context Protocol)

Anthropic 提出的开放协议，让 AI 模型与外部工具/数据安全交互。

┌──────────────────────────────────┐ │ MCP Host (Claude) │ │ │ │ ┌──────────┐ ┌──────────┐ │ │ │ MCP Client│ │ MCP Client│ │ │ └─────┬─────┘ └─────┬─────┘ │ │ │ │ │ └────────┼───────────────┼──────────┘ │ │ ┌────▼───┐ ┌────▼───┐ │ File │ │ DB │ ... MCP Servers │ Server │ │ Server │ └────────┘ └────────┘

概念	角色	说明
MCP Host	消费者	AI 应用 (Claude Desktop, Claude Code)
MCP Client	连接器	与 Server 建立 1:1 连接
MCP Server	提供者	暴露工具/资源/提示
Transport	传输层	stdio 或 HTTP+SSE

A2A (Agent-to-Agent Protocol)

Google 提出的协议，让不同 Agent 之间协作通信。

维度	MCP	A2A
提出者	Anthropic	Google
目的	LLM ↔ 工具/数据	Agent ↔ Agent
通信方向	Client-Server	Peer-to-Peer
类比	USB 连接外设	HTTP 连接服务
核心概念	Tools, Resources, Prompts	Task, Agent Card
传输	stdio, HTTP+SSE	HTTP + JSON-RPC

两者互补：MCP 连接工具，A2A 连接 Agent。实践中可以叠加使用。

9. 主流 SDK 与框架

LLM 调用 SDK

SDK	语言	覆盖范围
OpenAI SDK	Python/TS	GPT 系列
Anthropic SDK	Python/TS	Claude 系列
Google GenAI SDK	Python/TS	Gemini 系列
Vercel AI SDK	TS	多厂商统一接口
LangChain	Python/TS	全链路
LiteLLM	Python	多厂商代理/统一格式
OpenRouter	REST	200+ 模型统一 API

训练框架

框架	特点
PyTorch	研究首选，动态图
JAX	Google，函数式，TPU 友好
Transformers	HuggingFace，模型库最大
DeepSpeed	微软，ZeRO 并行
Megatron-LM	NVIDIA，张量并行
Unsloth	微调加速 2-5x
Axolotl	微调脚手架
LLaMA-Factory	中文友好，Web UI 微调

ML 平台

平台	定位
HuggingFace	模型仓库 + 社区
ModelScope	国内模型仓库
Weights & Biases	实验追踪
MLflow	生命周期管理
Ollama	本地推理
LM Studio	桌面推理

10. AI Skill 与 CLI 工具生态

什么是 Skill？

Skill 是 AI Agent 的可插拔能力模块，相当于给 AI 安装"技能包"。每个 Skill 包含特定领域的指令、工具配置和最佳实践，让 AI 在特定任务上表现更专业。

Skill = 专业指令 + 工具权限 + 最佳实践

维度	Skill	MCP Server	传统 Plugin
本质	纯指令/配置包	外部服务进程	代码扩展
运行位置	AI 内部（注入 prompt）	外部（独立进程）	外部/内部
通信	无（静态注入）	stdio / HTTP+SSE	API 调用
复杂度	低（Markdown/YAML）	中（需开发 Server）	高（需编程）
适用	领域知识、工作流指导	提供外部数据/能力	深度功能扩展
加载方式	对话时动态注入指令	生命周期内持续连接	安装后常驻

Skill 与 MCP 的关系：Skill 告诉 AI “怎么做”，MCP 提供"用什么做"。Skill 可以声明依赖某个 MCP Server 的工具，两者协同工作。

Claude Code Skills

Claude Code 内置 Skill 系统，支持个人级和项目级技能。

~/.claude/skills/ ← 个人技能（所有项目可用） ├── agent-browser/ │ ├── SKILL.md │ └── _meta.json └── my-custom-skill/ └── SKILL.md .claude/skills/ ← 项目技能（仅当前项目） └── project-conventions/ └── SKILL.md

SKILL.md 结构：

--- name: agent-browser description: Headless browser automation CLI optimized for AI agents metadata: {"emoji":"🌐","requires":{"commands":["agent-browser"]}} --- # Agent Browser Skill ## Core Workflow [具体指令和工作流...] ## Key Commands [命令参考...] ## Best Practices [最佳实践...]

常用 Skill 类型：

Skill 类型	示例	作用
浏览器自动化	agent-browser	无头浏览器操作，页面快照/交互
代码审查	review-pr	PR 审查工作流
提交辅助	commit	规范化 Git 提交
PDF 处理	pdf	PDF 读取/生成
定时任务	loop	循环执行指定操作
配置管理	update-config	管理 Claude Code 配置
代码优化	simplify	审查代码质量和复用性
API 开发	claude-api	Claude API/SDK 开发指导

AI CLI 工具矩阵

除了模型 API 和 IDE 插件，CLI 工具是 AI 开发者的第三大武器。

浏览器自动化

工具	特点	适用
agent-browser	无障碍树快照 + ref 定位，专为 AI Agent 设计	Agent 工作流
Playwright	多浏览器，全 API，生态最完善	E2E 测试/AI 浏览
Puppeteer	Chrome-only，轻量	爬虫/截图
Selenium	最成熟，多语言	传统自动化

agent-browser 核心命令速查：

# 安装npminstall-gagent-browser agent-browserinstall# 下载 Chromium# 导航与快照agent-browseropenhttps://example.com agent-browser snapshot-i--json# -i 交互元素, --json JSON输出# 元素交互 (ref-based, 确定性定位)agent-browser click @e2 agent-browser fill @e3"text"agent-browser press"Enter"# 状态获取agent-browser get text @e1--jsonagent-browser get url--jsonagent-browser get title--json# 等待策略agent-browserwait@e2 agent-browserwait--loadnetworkidle agent-browserwait--text"Welcome"# 多会话隔离agent-browser--sessionadminopensite.com agent-browser--sessionuseropensite.com# 状态持久化（跳过登录）agent-browser state save auth.json agent-browser state load auth.json

agent-browser vs Playwright 选型：

场景	推荐
AI Agent 自动化工作流	agent-browser (ref 定位更稳定)
传统 E2E 测试	Playwright (生态成熟)
需要截图/PDF 分析	二者均可
多步骤复杂交互	agent-browser (snapshot-ref 模式)
CI/CD 集成	Playwright

AI 编程 CLI

工具	定位	特点
Claude Code	Anthropic 官方	深度代码理解，Agent 原生
Gemini CLI	Google 官方	免费额度，Google 生态
GitHub Copilot CLI	GitHub	终端命令补全
aider	开源	Git 感知，多模型支持
Codex CLI	OpenAI	轻量终端 Agent
Cursor CLI	Cursor	IDE 配套终端工具

模型管理 CLI

工具	用途
Ollama CLI	本地模型拉取/运行/管理
huggingface-cli	HF 模型下载/上传
litellm	多厂商标配代理

Skill 开发流程

1. 确定场景 → 什么任务需要 Skill？ 2. 编写 SKILL.md → 用 Markdown 写指令和工作流 3. 测试 → 在对话中验证 Skill 触发和行为 4. 迭代 → 优化 prompt 和工具配置 5. 分发 → 放到 ~/.claude/skills/ 或项目 .claude/skills/

11. 向量数据库与 RAG

RAG 架构 (检索增强生成)

用户查询 → Embedding → 向量检索 → Top-K 文档 → LLM 生成 → 带引用的答案

向量数据库对比

数据库	类型	特点
Pinecone	云原生	全托管，零运维
Weaviate	开源	混合搜索，GraphQL
Milvus	开源	分布式，十亿级
Qdrant	开源	Rust 实现，高性能
Chroma	开源	轻量，适合原型
pgvector	PG 插件	与 PostgreSQL 一体化
Elasticsearch	搜索+向量	全文+向量混合
FAISS	库	Meta 出品，纯向量

Chunking 策略

固定大小 — 简单，但可能切断语义 语义分块 — 按段落/句子边界分割 递归分块 — 按分隔符层级分割 Agent 分块 — LLM 感知的智能分块

12. 模型微调与定制

微调方法

方法	简介	显存需求
Full Fine-Tuning	全参数更新	最高 (16× 模型大小)
LoRA	低秩适配，旁路矩阵	极低 (7B 模型 ~6GB)
QLoRA	LoRA + 4-bit 量化	最低 (7B 模型 ~4GB)
Adapter	插入小型适配层	低
Prefix Tuning	学习虚拟 token	低
P-Tuning v2	深层提示微调	低
DPO	直接偏好优化	中（不需要奖励模型）

Prompt 工程

Zero-shot — 不给示例 Few-shot — 给 2-5 个示例 Chain-of-Thought — "让我们一步步思考" Tree-of-Thought — 多路径探索 Self-Consistency — 多次采样投票 ReAct — 思考+行动交替

13. 选型速查

根据任务类型

任务	首选	备选
日常编程	Claude Sonnet 4.6	GPT-4o, DeepSeek-V4
深度代码分析	Claude Opus 4.6	o4, DeepSeek-R1
快速内容生成	GPT-4o / Claude Haiku	Gemini Flash
数学推理	o4 / DeepSeek-R1	Claude Opus 4.6
视频理解	Gemini 2.5 Pro	GPT-4o
图像生成	Flux.1 / Midjourney	SD 3.5
视频生成	Veo 3 / Sora 2	Runway, Kling
私有化部署	DeepSeek-V3 / Qwen 3	Llama 4
本地推理	Ollama + Qwen 2.5 (7B)	Ollama + DeepSeek-R1 (7B)
Agent 开发	Claude Agent SDK	LangGraph
RAG 系统	Claude + Chroma/Qdrant	GPT + Pinecone
企业搜索	Cohere Command A	Claude + pgvector

根据资源

无 GPU，本地推理： Ollama + Qwen 2.5 (0.5B~7B) / DeepSeek-R1 (1.5B~7B) Apple Silicon → MLX + Qwen 2.5 (14B~32B) 单卡 24GB GPU (RTX 4090)： 推理：7B~14B (fp16), 32B~72B (Q4) 微调：7B LoRA, 1.5B Full 单卡 80GB GPU (A100)： 推理：7B~70B (fp16) 微调：70B LoRA, 7B Full 企业 API (无需 GPU)： Claude API / GPT API / Gemini API / DeepSeek API

结束语

如果这篇文章对你有帮助，欢迎：

👍点赞收藏，方便下次查找
💬评论区交流你的选型经验和看法
📌分享给正在学习 AI 的同事朋友

下篇预告：DeepSeek-V4 vs Claude Opus 4.6 深度对比实测

附录

常用缩写

缩写	全称
LLM	Large Language Model
VLM	Vision Language Model
MoE	Mixture of Experts
RLHF	Reinforcement Learning from Human Feedback
DPO	Direct Preference Optimization
CoT	Chain of Thought
RAG	Retrieval-Augmented Generation
MCP	Model Context Protocol
A2A	Agent-to-Agent
SSD	State Space Model
DiT	Diffusion Transformer
LoRA	Low-Rank Adaptation
GGUF	GPT-Generated Unified Format (量化格式)

关键时间节点

时间	事件
2012	AlexNet 赢得 ImageNet，深度学习爆发
2017	Transformer 架构提出
2020	GPT-3 展示涌现能力
2022.11	ChatGPT 发布，AI 进入大众视野
2023.03	GPT-4 发布，多模态
2024.05	GPT-4o 发布，原生多模态
2024.11	Anthropic 发布 MCP 协议
2025.01	DeepSeek-R1 开源推理模型震撼业界
2025.04	Google 发布 A2A 协议
2025.06	Claude Opus 4.6 / GPT-5 时代
2026.05	多模态 Agent + MCP/A2A + Skill 生态成熟

一图速览：2026 AI 技术生态全景

┌─────────────────────────────────────────────┐ │ 2026 AI 技术生态全景 │ ├─────────────────────────────────────────────┤ │ │ │ 模型层 GPT-5 · Claude Opus 4.6 │ │ Gemini 2.5 · DeepSeek-V4 │ │ Qwen 3 · Llama 4 · Kimi │ │ │ │ 协议层 MCP (Anthropic) · A2A (Google) │ │ │ │ Agent层 Claude Code · LangChain │ │ CrewAI · AutoGen · Agno │ │ Claude Agent SDK · LangGraph │ │ │ │ Skill层 agent-browser · commit │ │ review-pr · pdf · claude-api │ │ loop · simplify · update-config │ │ │ │ CLI工具 agent-browser · Ollama CLI │ │ aider · litellm │ │ │ │ 设施层 vLLM · Ollama · llama.cpp │ │ A100 · H100 · B200 · RTX 5090 │ │ │ │ 数据层 RAG · Chroma · Milvus · Qdrant │ │ Pinecone · pgvector · FAISS │ │ │ └─────────────────────────────────────────────┘

查看全文

http://www.jsqmd.com/news/853457/