⑨番外篇II,FastLLM——老卡也能跑满血DeepSeek
本篇目标:了解 FastLLM 的定位、核心能力,以及它和 vLLM / Ollama 怎么选
前言:为什么写这篇番外?
我经常想:
“我的显卡只有 RTX 4060 8G,能跑 DeepSeek 吗?”
“服务器上还有张 5090 24G,高不成低不就,只能吃灰吗?”
“vLLM 装不上,CUDA 版本太低了怎么办?”
这些问题,vLLM 回答不了——vLLM 不是为这些场景设计的。
但 FastLLM 可以。
经粉丝晓东同志提醒,我花了一下午时间调研了 FastLLM 的文档、GitHub 仓库和社区实测文章,发现这个工具解决了一个很具体的问题:让那些"不够格"的硬件,也能跑大模型。
这篇文章是我的调研笔记,也是一份选型参考。声明:本文未做实测,所有性能数据来自官方文档和社区报告。
一、FastLLM 是什么?
一句话:纯 C++ 实现的高性能大模型推理库,不依赖 PyTorch,专门为"非理想硬件"优化。
作者 ztxz16(国内开发者),GitHub 星标活跃。核心卖点就一个:任意 10GB 以上显存的显卡,就能单卡推理满血 DeepSeek R1 671B。
怎么做到的?三个关键技术:
1. CPU + GPU 混合推理(杀手锏)
这是 FastLLM 最核心的能力。
大模型(尤其是 MoE 模型如 DeepSeek)的结构是:稠密层 + MoE 专家层。MoE 层参数量巨大但每次只激活一小部分专家。
FastLLM 的思路很简单:
- 稠密层 → GPU 跑(计算密集,GPU 擅长)
- MoE 专家层 → CPU 跑(参数量大但激活少,CPU 内存大)
结果就是:一张 RTX 4060 8G 显卡 + 32G 内存,就能跑 DeepSeek V3 这种级别的模型。
官方数据:双路 EPYC 9004/9005 服务器 + 单张显卡,部署 DeepSeek R1 671B FP8 原版模型,单并发 20 tokens/s;INT4 量化版30 tokens/s,多并发可达60+ tokens/s。
2. 不依赖 PyTorch
vLLM 底层依赖 PyTorch + CUDA,这意味着你需要匹配的 CUDA 版本、驱动版本、PyTorch 版本……任何一环不对就装不上。
FastLLM 用 C++ 自研算子,直接调 CUDA / ROCm / OpenCL,一条 pip install 就能跑(NVIDIA 卡),甚至 P100、K80 这种古董卡都支持。
3. 极宽的硬件兼容性
| 硬件类型 | 支持情况 |
|---|---|
| NVIDIA | M40、K80 到 RTX 5090 全系列 |
| AMD | MI50、7900 等(ROCm) |
| 国产卡 | 天数、沐曦、燧原、华为昇腾 |
| 移动端 | 安卓可直接编译 |
二、FastLLM vs vLLM vs Ollama:怎么选?
这是最关键的问题。三者定位完全不同:
| 维度 | Ollama | vLLM | FastLLM |
|---|---|---|---|
| 目标用户 | 个人玩票 | 生产服务 | 硬件受限的生产/个人 |
| 核心优势 | 极简上手 | 高吞吐并发 | 兼容性广、混合推理 |
| 显存需求 | 能装下就能跑 | 建议 16G+ | 10G 就能起步 |
| 老卡支持 | 一般 | 差(需新 CUDA) | 极好 |
| MoE 模型 | 支持 | 支持 | 混合推理(独门) |
| 安装难度 | 一颗星 | 三颗星 | 两颗星 |
| API 服务 | 有 | 有(OpenAI 兼容) | 有(OpenAI 兼容) |
| 适合场景 | 本地偶尔用 | 对外提供 API | 老卡/国产卡/MoE 大模型 |
选型决策树
你有什么卡? ├── RTX 3090/4090/5090,显存 24G+ │ ├── 只是自己用 → Ollama │ └── 要对外提供服务 → vLLM │ ├── RTX 3060/4060,显存 8-12G │ ├── 只跑 7B-14B 小模型 → Ollama 够了 │ └── 想跑 DeepSeek V3/R1 这种大 MoE → FastLLM │ ├── 老卡(P100/K80/2080Ti)/ 国产卡 │ └── FastLLM(几乎唯一选择) │ ├── 多卡服务器 │ ├── 追求极致吞吐 → vLLM │ └── 卡不多但想跑大模型 → FastLLM(支持奇数张卡) │ └── 只要能装上就行 └── Ollama(最省心)三、FastLLM 的亮点功能
3.1 安装确实简单
# NVIDIA GPU(Linux)pipinstallftllm-U# AMD GPU(Linux)# 先安装ROCM 6.3.3wgetwgethttps://repo.radeon.com/amdgpu-install/6.3.3/ubuntu/jammy/amdgpu-install_6.3.60303-1_all.debaptinstall./amdgpu-install_6.3.60303-1_all.deb-yamdgpu-install--usecase=hiplibsdk,rocm,dkms-ypipinstallftllm-rocm-U# Windows(NVIDIA)pipinstallhttps://www.modelscope.cn/models/huangyuyang/fastllmdepend-windows/resolve/master/ftllmdepend-0.0.0.2-py3-none-win_amd64.whl pipinstallftllm-U对比 vLLM 那套 CUDA 编译 + PyTorch 版本对齐的流程,FastLLM 确实友好很多。
以上,建议在python虚拟环境中执行。
3.2 三种使用模式
# 命令行聊天ftllm run Qwen/Qwen3-0.6B# WebUIftllm webui Qwen/Qwen3-0.6B# API Server(OpenAI 兼容)ftllm server Qwen/Qwen3-0.6B--port8080API 完全兼容 OpenAI 格式,可以直接接入 One API、Dify、anything-llm 等中间层。
3.3 混合推理的实际用法
# GPU 跑稠密层,CPU 跑 MoE 层(经典配置)ftllm server deepseek-ai/DeepSeek-V3--devicecuda--moe_devicecpu# 多 NUMA 节点加速 CPU 部分exportFASTLLM_NUMA_THREADS=27ftllm server fastllm/DeepSeek-V3-INT4--devicecuda--moe_devicenuma-t1# 多卡 + CPU 按比例分配ftllm server model--devicemulticuda:0:4,1:5,cpu:1最后一个命令的意思是:cuda:0 算 4/10,cuda:1 算 5/10,cpu 算 1/10。这种细粒度控制在其他框架里很难找到。
3.4 支持的模型
- 稠密模型:Qwen 系列、Llama 系列、Phi 系列
- MoE 模型:DeepSeek V3/R1、Qwen-MoE
- 格式支持:FP16/BF16 原始模型、FP8、AWQ、INT4/INT8 量化、GGUF(部分)、FastLLM 自有格式
- 最新支持:Qwen3-Next 混合推理、通用动态量化导出
四、FastLLM 的局限(公平地说)
不是万能药,这几个方面需要注意:
4.1 社区生态不如 vLLM
vLLM 背靠 UC Berkeley,有 LangChain/LlamaIndex 等主流框架原生集成。FastLLM 主要靠国内社区驱动,英文资料少,遇到问题主要靠 QQ 群(831641348)和微信群。
4.2 高端卡上不一定比 vLLM 快
FastLLM 的优势在"兼容性"和"混合推理",不是绝对速度。在 RTX 4090 / A100 这种高端卡上跑 7B-32B 稠密模型,vLLM 的 PagedAttention 优化可能更快。
4.3 文档质量参差
CSDN 和腾讯云有几篇不错的教程,但官方文档偏工程向,新手友好度不如 Ollama。
4.4 视觉/多模态模型支持
好消息:FastLLM已经支持多模态推理,从 V0.1.6.0 版本正式加入。
已明确支持的多模态模型:
| 模型 | 支持情况 |
|---|---|
| Qwen3.5(多模态版) | Python 接口已支持 |
| Gemma4 | 初步支持 |
| OpenAI 兼容 API 图片输入 | 支持 http链接、base64(data url)、file url |
补充说明:
- Qwen-VL、LLaVA 等早期视觉模型在官方文档中未明确提及支持状态,建议以 GitHub 最新版 changelog 为准
- 多模态推理对显存要求更高,老卡场景下请注意实测验证
⚠️ 本节信息基于 V0.1.6.0 changelog 整理,如有出入请以官方最新版本为准
4.5 未实测验证
再次强调:本文基于公开资料整理,我自己还在试用中,后续可能会发下体验记录。性能数据和体验描述来自官方 README 和社区文章,建议你在自己的环境里实测验证。
五、我的判断
FastLLM 解决了一个真实存在的痛点:不是每个人都有 RTX 4090,但很多人想跑大模型。
如果你的场景是:
- 公司/实验室有闲置的老服务器和老显卡
- 想低成本试水 DeepSeek R1 这种 MoE 大模型
- 国产芯片环境(海光 DCU、昇腾等)
那 FastLLM 值得一试。它的 CPU+GPU 混合推理思路,在当前"算力焦虑"的大环境下,是一个很务实的解法。
如果你已经有 24G+ 的新卡,且追求生产级稳定性,vLLM 仍然是更稳妥的选择。
工具没有高下之分,只有适不适合。
延伸阅读
- FastLLM GitHub — 官方仓库
- CSDN:FastLLM + CPU+GPU 混合推理 — 详细使用指南
- 腾讯云:FastLLM 推理库介绍 — 快速上手
- 掘金:vLLM / FastLLM / llama.cpp 对比 — 三框架横向对比
求索实验室 · 本地部署系列
