当前位置：首页 > news >正文

一文讲透所有主流AI模型：GPT、Claude、Gemini、Grok、DeepSeek到底怎么选？

news 2026/6/23 5:30:16

本文整理自 B 站「19分钟讲透所有主流AI模型」，通过音视频转图文工具Ai好记转文字整理，以下为精炼整理后的内容。

ChatGPT 不是模型，GPT 才是

很多人搞混这个概念。ChatGPT 只是一个应用入口，背后真正干活的是 GPT 模型。

就像你通过 Claude 网站访问的是 Claude 模型，通过 API 访问的是同一批模型——不同的Logo，不同的大门，但每一个背后都是一个巨大的 AI 大脑。

所有大语言模型的核心机制都是一样的：预测下一个词，一次一个 token。

写文章、解释物理、调代码——这些看似聪明的能力，本质上都来自「把下一个词猜得极准」。模型越大（参数越多），能识别的模式越复杂。

上下文窗口决定了模型在对话中的「短期记忆」，窗口越大越不容易忘事。

部分新系统还加入了推理（Reasoning）能力，回答前多思考几步，慢一点但数学、逻辑、多步问题的表现好很多。

GPT（OpenAI）——全能型选手

当前旗舰 GPT-4 是多模态模型，能处理文字、分析、编码、图片、语音。

定位是通用型——什么都能做，而不是某一样做到极致。

在 2026 年，当越来越多专业模型崛起时，全能型反而不容易保持领先。

O 系列是独立分支，专注于推理能力，在难题上表现明显更好。GPT-5 在 2025 年中发布，之后迭代不断——但说实话，版本号更新太快，连一直关注的人都容易搞混。

OpenAI 的真正优势是什么？是几亿用户的体量、海量的插件生态、以及大量第三方开发者基于它的 API 做开发。

Gemini（Google）——生态原生的颠覆者

Gemini 3.1 Pro 在多个主流基准测试上拿到第一，评测表现很强。

但真正的优势不是跑分，而是集成度——Gmail、搜索、Android、Maps，Gemini 都已经嵌进去了。

如果你的数字生活跑在 Google 上，Gemini 已经认识你了。

Gemini 3 Flash 拥有 Pro 大约 90%-95% 的能力，但速度快得多，日常场景反而是更聪明的选择。

还有两个值得说的点：

多模态理解强——拍一张零件照片就能识别，比翻手册快得多
200 万 token 上下文——整本小说扔进去，让它分析主题、总结章节、找前后矛盾

Claude（Anthropic）——编码和分析之王

Claude Opus（2026 年 2 月发布）拥有 100 万 token 上下文、128K 输出 token，是当前最适合编码、推理和大规模分析的模型之一。

下面是 Sonnet，大约有 Opus 80% 的能力，速度快、成本低。

Claude 的编码优势是真实的——在 HumanEval 和 LiveCodeBench 这类衡量真实世界代码理解的基准上表现很突出。

长文档分析也是拿手好戏——合同、论文、整个代码库，返回清晰的摘要。

有人评价 Claude 是「最不拍马屁的主流模型」——它不会只说好听的话，会给你真实的反馈。

Grok（xAI）——接地气的聊天专家

Grok 的特点是对话感强，感觉很自然、放松，像跟真人聊天。直到凌晨三点它秒回你，你才会反应过来对面是 AI。

定位上偏向「回答其他模型可能拒绝的问题」。有好处也有风险——对于其他模型过于谨慎的话题，Grok 很开放；但有些话题的谨慎是有理由的。

DeepSeek（深度求索）——开源之王

DeepSeek-R1 完全开源，你可以下载自己跑——不需要订阅，没有用量限制。你的 GPU 可能会受苦，但钱包不会。

它使用了混合专家（MoE）架构，虽然参数规模巨大，但每次只有一部分参数激活，保持了速度。

数学、编码、逐步推理是强项，在技术基准上跟 GPT-4 和 Claude 正面竞争。运行成本大约是 GPT-4 的2.7%。

训练数据约 1.2 万亿 token，据说下一代因为 CEO 对性能不满意和芯片受限被延迟了。

Perplexity——模型聚合器

Perplexity 的核心是搜索 + 引用——主动搜索实时网页并显示信息来源，相当于自带证据。

它的隐藏价值是：一个地方访问 GPT、Claude、Gemini、Kimi 多个模型，不需要分别付费。

有点像 AI 界的流媒体聚合平台。不同档次对应不同处理深度，快速搜索到深度研究都能覆盖。

图像与视频模型

Midjourney——艺术质量之王，画面电影感强。审美要求高的时候首选，约 10 美元/月
DALL·E（OpenAI）——文字渲染最准，嵌入文字时效果最好
Flux——开源领头羊，本地免费跑，提示词匹配精确度比大多数竞品高
Stable Diffusion 3.5——可定制之王，通过 LoRA 和 ControlNet 精细控制

视频方面：Sora 2 注重画面连贯性和物理合理性，最长 1 分钟；Runway Gen-4.5 偏向创作者控制，像在导演自己的 AI 电影；Kling 2.6 主打快，支持音画同步生成，适合短视频批量产出。

如何看待本地模型

LLaMA 从 Meta 发起后催生了大量变种，比如 Qwen 3 在某些任务上接近 Claude Sonnet。很多模型在你的游戏 PC 或 MacBook 上就能跑，Ollama 和 LM Studio 可以一键搞定环境。

本地模型的意义不在于「跟云端模型比强不强」，而在于从「租用」AI 变成「拥有」AI——没有订阅费，数据不出门，断网也能用。

小结

什么都要做→ GPT
生活在 Google 生态→ Gemini
写代码、分析长文档→ Claude
接地气聊天→ Grok
省钱、数据隐私优先→ DeepSeek / 本地模型
追实时信息、多模型对比→ Perplexity
做设计→ Midjourney / DALL·E
做视频→ Sora / Runway / Kling

FAQ

怎么选自己的主力模型？
先看你的主要使用场景。写代码多就 Claude，整理信息多用 GPT，追求可控性和成本就上本地模型。两个都试试，哪个顺手用哪个。

模型版本更新那么快，怎么跟？
不用跟。满足你当前需求的模型就是好模型。除非新版有让你心动的具体功能，没必要为了追新而升级。

本地模型真的能替代云端吗？
日常复杂推理和长上下文还差一截。但数据私有、零成本、离线可用这三点，对部分场景来说是刚需。最好的方案是本地 + 云端搭配用。

以上内容由Ai好记转录整理。Ai好记是一款音视频转图文笔记的 AI 学习助手，支持 B站、抖音、小宇宙等平台链接及本地音视频文件，转录后自动生成精华速览、思维导图和结构化笔记，帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

查看全文

http://www.jsqmd.com/news/1065629/

性价比高的锂电池电眼选购指南，劲普品牌解读 - 工业品牌热点

深度解析FGO-py：3大核心技术突破，重新定义手游自动化体验

Claude Code 2.1智能体编排时代与1096次提交深度解析

扣子编程+OpenClaw实现飞书机器人告警自动化

致远OA前端密码加密JS逆向分析与Python复现实战

Python应用安全部署：用户空间运行与权限最小化实践

如何评估烧烤网厂家？金帆丝网给你支招 - 工业品牌热点

2000-2023年地级市-数字基础设施评价指标体系数据+代码文献

3大技术革新：Pixelle-Video开源AI视频引擎如何解决内容创作核心痛点

技术策略中的算法选择与动态替换

GLM-4.7 + Claude Code 构建高质量AI编程Agent

Openspec+Superpowers：AI驱动的可执行契约开发工作流

京东开源全球首个全栈实时视频视觉语言交互模型，对比竞品胜率最高达87.9%

飞思卡尔e6500内核性能监控单元(PMU)实战：从寄存器配置到性能瓶颈定位

如何永久保存微信聊天记录：WeChatMsg一站式备份与可视化分析终极指南

Apifox条件分支：构建智能接口自动化测试流程的实战指南

Oh-My-OpenCode：AI编程的工程化配置哲学

AR模型与卡尔曼滤波：实现流体天线信道精准插值的工程实践

新手注意：2026 AI录音转会议纪要免费额度使用的常见误区

Akagi雀魂AI助手：实时麻将分析与智能决策的终极指南

Playwright自动化测试：列表拖拽排序的实战指南与避坑技巧

铝装饰板打样全流程解析，从设计到成品的干货分享 - myqiye

智己 LS9 售后响应及时吗？9 系列 SUV 选购维度对比与车型适配指南

RDP Wrapper配置文件终极指南：免费解锁Windows多用户远程桌面

卡立方平台顶级邀请码000000完整权限与实际作用深度全解 - 卡立方平台官方号

mEOL：无需训练的指令引导跨模态检索，打通SVG与图像的语义鸿沟

Java的Process与ProcessBuilder：执行外部程序的正确姿势

国内稳定调用Gemini的轻量兼容层实践

三版递进式Python粒子群算法实现，专解柔性车间调度问题（含测试数据与可视化）