当前位置：首页 > news >正文

离线部署Qwen 和 DeepSeek

news 2026/7/29 19:47:33

deepseek的每个大模型参数都那么大，还是没有qwen3.6-35b等更平民化。我是不是可以理解deepseek使用了更多的显存以空间换时间

你的理解有一部分正确，但不完全准确。

更准确地说：

DeepSeek 不是简单地“用更多显存换时间”，而是采用了MoE（Mixture of Experts，专家混合）架构，本质上是在显存、参数规模、推理计算量之间做新的平衡。

为什么 DeepSeek 看起来参数特别大？

以 DeepSeek-V3 为例：

模型	总参数
Qwen3-32B	32B
Qwen3.6-35B-A3B	35B
DeepSeek-V3	671B
DeepSeek-R1	671B

看起来差了20倍。

但实际上：

DeepSeek-V3：

总参数 671B
每个Token实际激活约37B参数

也就是说：

671B（存储） ↓ 37B（计算）

这正是 MoE 架构的特点。

Qwen3.6-35B-A3B 和 DeepSeek 的区别

Qwen3.6-35B-A3B

属于轻量MoE：

总参数： 35B 激活参数： 约3B

因此名字里的：

A3B

意思就是：

Active 3B

DeepSeek-V3

总参数： 671B 激活参数： 37B

每个Token需要计算37B参数。

对单张A100来说意味着什么？

Qwen3.6-35B-A3B

大致：

显存占用： 20~40GB 激活计算： 3B

优点：

快
吞吐高
便宜

DeepSeek-V3

即使4bit量化：

显存： 300GB+

完整模型权重必须放下。

虽然只激活37B参数：

计算量 ≈ 37B模型

但是：

存储量 ≈ 671B模型

所以：

MoE降低了计算量，但没有降低权重存储需求。

这是很多人第一次接触 DeepSeek 时容易误解的地方。

DeepSeek到底是在换什么？

实际上是：

更多显存 ↓ 换取更强能力 ↓ 而不是换更快速度

例如：

假设有两个模型：

Dense模型

72B参数 72B计算 72B存储

DeepSeek-V3

671B参数 37B计算 671B存储

结果：

能力： 671B级别 计算： 37B级别 显存： 671B级别

所以 DeepSeek 的核心思想是：

用超大的总参数容量提升知识和推理能力，但每次推理只激活一小部分专家，避免计算量爆炸。

为什么你觉得 Qwen 更“平民化”？

因为阿里在 Qwen3 系列上更重视：

部署友好性

例如：

模型	单卡A100
Qwen3-32B	√
Qwen3.6-35B-A3B	√
Qwen3-30B-A3B	√
DeepSeek-V3	×
DeepSeek-R1	×

Qwen 的很多模型设计目标就是：

单机 单卡 企业私有化

而 DeepSeek-V3/R1 的设计目标更接近：

数据中心 多机多卡 云服务

对你目前的硬件（A100 80GB）

如果目标是：

MCP Agent
RAGFlow
企业知识库
离线部署

那么从工程角度看：

模型	推荐度
Qwen3.6-35B-A3B	⭐⭐⭐⭐⭐
Qwen3-32B	⭐⭐⭐⭐⭐
GLM-4-32B	⭐⭐⭐⭐
DeepSeek-R1-Distill-Qwen-32B	⭐⭐⭐⭐
DeepSeek-V3	⭐
DeepSeek-R1 671B	⭐

原因很简单：

你的 A100 80GB 可以把 32B~35B 级别模型跑得非常舒服，但距离运行完整 DeepSeek-V3/R1 仍然差一个数量级。

所以对于私有化部署场景，很多企业最终发现：

Qwen3-32B、Qwen3.6-35B-A3B 这类模型的“能力/成本比”反而比 DeepSeek-V3 更高。

这也是为什么现在大量 RAGFlow、Dify、FastGPT、MCP Server 的生产环境，实际上优先选择 Qwen，而不是完整的 DeepSeek-V3。

查看全文

http://www.jsqmd.com/news/954077/

告别卡尔曼滤波？用DETR的‘Track Query’思路，5分钟理解TrackFormer的跟踪新范式

C语言整数类型

2026最新焊接工作站工厂实测评测：四大品牌核心能力横向对比 - 奔跑123

2026年Q2淮南牛肉汤歌、淮南牛肉汤动漫歌权威推荐TOP5榜 - 安互工业信息

5分钟掌握百度网盘直链解析：告别龟速下载的完整指南

市场纤维水泥压力板厂商

2026 池州防水补漏三家品牌测评：厨卫屋面地下室修缮哪家靠谱？吉修匠 99.8 分五星稳居榜首 - 吉修匠

Flutter国内镜像又挂了？别慌，手把手教你快速切换到清华/腾讯云等可用镜像源

别再搞混了！ArcMap里‘定义投影’和‘投影’到底啥区别？手把手教你选对工具

CBCX：监管意识与信息透明度的观察

小学生算术练习神器：从 0 到 1 开发一款趣味数学小软件

记一次网卡故障

AIR-SARShip-1.0数据集预处理实战：如何设计滑动窗口裁剪策略并同步更新XML标注文件

OpenAI 推 ChatGPT 会话控制功能，却难敌模型迭代，企业治理挑战重重！

浙江GEO 源头厂商第一梯队发展现状与行业落地路径深度解析 - 浙江稻盛和夫

2026 亳州防水补漏三家品牌横向测评：厨卫屋面地下室修缮哪家靠谱？吉修匠 99.8 分五星稳居榜首 - 吉修匠

从PRONOSTIA平台到你的模型：手把手教你用FEMTO-ST轴承数据做寿命预测

Matlab车辆检测全流程代码包：从图像预处理到HOG+SVM识别，含多组实测样例与结果图

Cartographer纯定位模式快速重定位：手把手教你修改源码设置初始位姿（附避坑指南）

深入解读Spartan-6引脚功能表：除了当GPIO，这些引脚还能怎么用？

五大云桌面品牌全解析，谁才是芯片行业真正的实力派？ - 资讯焦点

炉石传说HsMod终极指南：如何用5个实用功能彻底优化你的游戏体验

数据科学家的数学实战手册：从故障归因到模型创造

芯片设计企业协同办公与数据防泄漏解决方案 - 资讯焦点

第14章：多模态AI实战 —— 让AI“看懂“图片和文档

Nicotine+：一款开源的 Soulseek P2P 图形客户端

p08 2.3 贝尔曼方程_cdn

上海会通EXDEMB防爆电机技术参数解析与工业场景适配指南 - 奔跑123

为什么 DeepSeek 看起来参数特别大？

Qwen3.6-35B-A3B 和 DeepSeek 的区别

Qwen3.6-35B-A3B

DeepSeek-V3

对单张A100来说意味着什么？

Qwen3.6-35B-A3B

DeepSeek-V3

DeepSeek到底是在换什么？

Dense模型

DeepSeek-V3

为什么你觉得 Qwen 更“平民化”？

部署友好性

对你目前的硬件（A100 80GB）

相关文章：