当前位置：首页 > news >正文

⑨番外篇II，FastLLM——老卡也能跑满血DeepSeek

news 2026/6/23 12:44:35

本篇目标：了解 FastLLM 的定位、核心能力，以及它和 vLLM / Ollama 怎么选

前言：为什么写这篇番外？

我经常想：

“我的显卡只有 RTX 4060 8G，能跑 DeepSeek 吗？”
“服务器上还有张 5090 24G，高不成低不就，只能吃灰吗？”
“vLLM 装不上，CUDA 版本太低了怎么办？”

这些问题，vLLM 回答不了——vLLM 不是为这些场景设计的。

但 FastLLM 可以。

经粉丝晓东同志提醒，我花了一下午时间调研了 FastLLM 的文档、GitHub 仓库和社区实测文章，发现这个工具解决了一个很具体的问题：让那些"不够格"的硬件，也能跑大模型。

这篇文章是我的调研笔记，也是一份选型参考。声明：本文未做实测，所有性能数据来自官方文档和社区报告。

一、FastLLM 是什么？

一句话：纯 C++ 实现的高性能大模型推理库，不依赖 PyTorch，专门为"非理想硬件"优化。

作者 ztxz16（国内开发者），GitHub 星标活跃。核心卖点就一个：任意 10GB 以上显存的显卡，就能单卡推理满血 DeepSeek R1 671B。

怎么做到的？三个关键技术：

1. CPU + GPU 混合推理（杀手锏）

这是 FastLLM 最核心的能力。

大模型（尤其是 MoE 模型如 DeepSeek）的结构是：稠密层 + MoE 专家层。MoE 层参数量巨大但每次只激活一小部分专家。

FastLLM 的思路很简单：

稠密层 → GPU 跑（计算密集，GPU 擅长）
MoE 专家层 → CPU 跑（参数量大但激活少，CPU 内存大）

结果就是：一张 RTX 4060 8G 显卡 + 32G 内存，就能跑 DeepSeek V3 这种级别的模型。

官方数据：双路 EPYC 9004/9005 服务器 + 单张显卡，部署 DeepSeek R1 671B FP8 原版模型，单并发 20 tokens/s；INT4 量化版30 tokens/s，多并发可达60+ tokens/s。

2. 不依赖 PyTorch

vLLM 底层依赖 PyTorch + CUDA，这意味着你需要匹配的 CUDA 版本、驱动版本、PyTorch 版本……任何一环不对就装不上。

FastLLM 用 C++ 自研算子，直接调 CUDA / ROCm / OpenCL，一条 pip install 就能跑（NVIDIA 卡），甚至 P100、K80 这种古董卡都支持。

3. 极宽的硬件兼容性

硬件类型	支持情况
NVIDIA	M40、K80 到 RTX 5090 全系列
AMD	MI50、7900 等（ROCm）
国产卡	天数、沐曦、燧原、华为昇腾
移动端	安卓可直接编译

二、FastLLM vs vLLM vs Ollama：怎么选？

这是最关键的问题。三者定位完全不同：

维度	Ollama	vLLM	FastLLM
目标用户	个人玩票	生产服务	硬件受限的生产/个人
核心优势	极简上手	高吞吐并发	兼容性广、混合推理
显存需求	能装下就能跑	建议 16G+	10G 就能起步
老卡支持	一般	差（需新 CUDA）	极好
MoE 模型	支持	支持	混合推理（独门）
安装难度	一颗星	三颗星	两颗星
API 服务	有	有（OpenAI 兼容）	有（OpenAI 兼容）
适合场景	本地偶尔用	对外提供 API	老卡/国产卡/MoE 大模型

选型决策树

你有什么卡？ ├── RTX 3090/4090/5090，显存 24G+ │ ├── 只是自己用 → Ollama │ └── 要对外提供服务 → vLLM │ ├── RTX 3060/4060，显存 8-12G │ ├── 只跑 7B-14B 小模型 → Ollama 够了 │ └── 想跑 DeepSeek V3/R1 这种大 MoE → FastLLM │ ├── 老卡（P100/K80/2080Ti）/ 国产卡 │ └── FastLLM（几乎唯一选择） │ ├── 多卡服务器 │ ├── 追求极致吞吐 → vLLM │ └── 卡不多但想跑大模型 → FastLLM（支持奇数张卡） │ └── 只要能装上就行 └── Ollama（最省心）

三、FastLLM 的亮点功能

3.1 安装确实简单

# NVIDIA GPU（Linux）pipinstallftllm-U# AMD GPU（Linux）# 先安装ROCM 6.3.3wgetwgethttps://repo.radeon.com/amdgpu-install/6.3.3/ubuntu/jammy/amdgpu-install_6.3.60303-1_all.debaptinstall./amdgpu-install_6.3.60303-1_all.deb-yamdgpu-install--usecase=hiplibsdk,rocm,dkms-ypipinstallftllm-rocm-U# Windows（NVIDIA）pipinstallhttps://www.modelscope.cn/models/huangyuyang/fastllmdepend-windows/resolve/master/ftllmdepend-0.0.0.2-py3-none-win_amd64.whl pipinstallftllm-U

对比 vLLM 那套 CUDA 编译 + PyTorch 版本对齐的流程，FastLLM 确实友好很多。

以上，建议在python虚拟环境中执行。

3.2 三种使用模式

# 命令行聊天ftllm run Qwen/Qwen3-0.6B# WebUIftllm webui Qwen/Qwen3-0.6B# API Server（OpenAI 兼容）ftllm server Qwen/Qwen3-0.6B--port8080

API 完全兼容 OpenAI 格式，可以直接接入 One API、Dify、anything-llm 等中间层。

3.3 混合推理的实际用法

# GPU 跑稠密层，CPU 跑 MoE 层（经典配置）ftllm server deepseek-ai/DeepSeek-V3--devicecuda--moe_devicecpu# 多 NUMA 节点加速 CPU 部分exportFASTLLM_NUMA_THREADS=27ftllm server fastllm/DeepSeek-V3-INT4--devicecuda--moe_devicenuma-t1# 多卡 + CPU 按比例分配ftllm server model--devicemulticuda:0:4,1:5,cpu:1

最后一个命令的意思是：cuda:0 算 4/10，cuda:1 算 5/10，cpu 算 1/10。这种细粒度控制在其他框架里很难找到。

3.4 支持的模型

稠密模型：Qwen 系列、Llama 系列、Phi 系列
MoE 模型：DeepSeek V3/R1、Qwen-MoE
格式支持：FP16/BF16 原始模型、FP8、AWQ、INT4/INT8 量化、GGUF（部分）、FastLLM 自有格式
最新支持：Qwen3-Next 混合推理、通用动态量化导出

四、FastLLM 的局限（公平地说）

不是万能药，这几个方面需要注意：

4.1 社区生态不如 vLLM

vLLM 背靠 UC Berkeley，有 LangChain/LlamaIndex 等主流框架原生集成。FastLLM 主要靠国内社区驱动，英文资料少，遇到问题主要靠 QQ 群（831641348）和微信群。

4.2 高端卡上不一定比 vLLM 快

FastLLM 的优势在"兼容性"和"混合推理"，不是绝对速度。在 RTX 4090 / A100 这种高端卡上跑 7B-32B 稠密模型，vLLM 的 PagedAttention 优化可能更快。

4.3 文档质量参差

CSDN 和腾讯云有几篇不错的教程，但官方文档偏工程向，新手友好度不如 Ollama。

4.4 视觉/多模态模型支持

好消息：FastLLM已经支持多模态推理，从 V0.1.6.0 版本正式加入。

已明确支持的多模态模型：

模型	支持情况
Qwen3.5（多模态版）	Python 接口已支持
Gemma4	初步支持
OpenAI 兼容 API 图片输入	支持 http链接、base64（data url）、file url

补充说明：

Qwen-VL、LLaVA 等早期视觉模型在官方文档中未明确提及支持状态，建议以 GitHub 最新版 changelog 为准
多模态推理对显存要求更高，老卡场景下请注意实测验证

⚠️ 本节信息基于 V0.1.6.0 changelog 整理，如有出入请以官方最新版本为准

4.5 未实测验证

再次强调：本文基于公开资料整理，我自己还在试用中，后续可能会发下体验记录。性能数据和体验描述来自官方 README 和社区文章，建议你在自己的环境里实测验证。

五、我的判断

FastLLM 解决了一个真实存在的痛点：不是每个人都有 RTX 4090，但很多人想跑大模型。

如果你的场景是：

公司/实验室有闲置的老服务器和老显卡
想低成本试水 DeepSeek R1 这种 MoE 大模型
国产芯片环境（海光 DCU、昇腾等）

那 FastLLM 值得一试。它的 CPU+GPU 混合推理思路，在当前"算力焦虑"的大环境下，是一个很务实的解法。

如果你已经有 24G+ 的新卡，且追求生产级稳定性，vLLM 仍然是更稳妥的选择。

工具没有高下之分，只有适不适合。

延伸阅读
FastLLM GitHub — 官方仓库
CSDN：FastLLM + CPU+GPU 混合推理 — 详细使用指南
腾讯云：FastLLM 推理库介绍 — 快速上手
掘金：vLLM / FastLLM / llama.cpp 对比 — 三框架横向对比
求索实验室 · 本地部署系列

查看全文

http://www.jsqmd.com/news/1067408/