当前位置：首页 > news >正文

3090 本地跑 Qwen 3.6 27B：踩完所有坑后的完整部署方案

news 2026/5/9 2:05:11

本文从实测踩坑视角出发，记录 RTX 3090 24GB 跑 Qwen 3.6 27B 的完整过程——哪些方案失败了、唯一跑通的路是什么。

1、3090 24GB 能跑 Qwen 3.6 27B

把 X 上推荐的 Qwen 3.6 27B 本地部署方案全试了一遍——3090 24GB 上没一个跑得通。跑通的人用的全是 VRAM 80GB 起步的机器，但大多数帖子里这个前提条件直接省掉了。

3090 24GB 不是跑不了 27B，是跑不了 16bit 精度的 27B。Qwen 3.6 27B 全精度推理需要大约 54GB VRAM，超出两倍多。要装进 24GB，只能走 4bit 量化，而当前主流的几个加速框架对 27B 4bit 的支持恰好都还没到位，这才是问题所在。

[外链图片转存中…(img-NsMoEeiy-1778233422700)]

重点：3090 24GB 能跑 Qwen 3.6 27B，但目前只有一条路：Q4_K_M 量化 + llama.cpp。X 上的推荐方案失败，不是因为卡不行，而是因为那些方案根本不支持 27B 的 4bit 量化。

2、DFlash 和 vLLM：两条看起来合理、但现在用不了的路

DFlash 是速度潜力最大的方向，失败原因很具体：z-lab 发布的Qwen3.6-27B-DFlash是用 16bit 精度训练的，没有现成的 4bit 量化版本。要用它必须手动把模型转换成 GGUF 格式再量化——工具链支持不完善，转换本身就是一个坑，暂时放弃是对的。等官方或社区出了 Q4_K_M 版本的 DFlash，3090 上的速度还能再上一个台阶。

vLLM 的问题不同。vLLM 对 DFlash 的支持合并进了 nightly 分支，稳定版没有。nightly 本身就不适合拿来做日常部署，稳定版又没这个功能，两边都不合适。

这两条路不是永久死路，是现在（2026年4月）的时间窗口问题。几周或几个月后情况可能变化，但在那之前如果你有 3090 想现在就跑起来，这两条先跳过。

重点：DFlash 值得等，vLLM 的 DFlash 支持值得跟进。但等的时候别在 3090 24GB 上折腾 16bit 方案——VRAM 不够，方案本身就跑不起来。

3、llama.cpp + Q4_K_M：能跑通的完整操作

唯一目前稳定可用的方案：llama.cpp（CUDA 编译）+ unsloth 的 Qwen3.6-27B Q4_K_M GGUF。

整个流程三步：编译 → 下模型 → 起服务。

编译 llama.cpp（指定 sm_86，对应 RTX 3090）：

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86 cmake --build build --config Release -j$(nproc)

下载模型（Q4_K_M 单文件约 17GB，hf-transfer加速十几分钟）：

pip install hf-transfer HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download unsloth/Qwen3.6-27B-GGUF / Qwen3.6-27B-Q4_K_M.gguf --local-dir ./models

起服务（暴露 OpenAI 兼容协议）：

./build/bin/llama-server / -m ./models/Qwen3.6-27B-Q4_K_M.gguf / --host 0.0.0.0 --port 8080 / -ngl 99 --ctx-size 8192

实测数据（RTX 3090 24GB，单用户）：Decode 37 tok/s 稳定，Prompt eval 342–430 tok/s，VRAM 占 17.8GB，GPU 利用率 96%，功耗 385W。

37 tok/s 单用户日常够用，不是特别快，但也不是吹牛的数字。多用户并发或对延迟敏感的场景，这个方案不合适，老老实实等 DFlash 适配或者换更大的卡。

重点：三步就能跑起来，没有复杂依赖。服务起来之后暴露的是 OpenAI 兼容 API，局域网内任何机器用标准openaiSDK 直连，base_url指向本机 IP 和端口，代码零改造。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

👇👇扫码免费领取全部内容👇👇

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

7. 资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

查看全文

http://www.jsqmd.com/news/780163/

Vue3 + Pinia 实现企业级 RBAC 权限控制系统（学生实战笔记）

【回眸】系统读书笔记（十一）

模拟信号数字化中的混叠现象与抗混叠滤波器设计

2026年知名的路沿石多家厂家对比分析 - 行业平台推荐

STL: list的底层实现（下）

解决 Git 推送/拉取报错：Could not resolve host: gitee.com

AI开发提效：构建可复用的系统提示词库与模型配置实战

基于Cursor IDE与Claude 3.5 Sonnet打造结构化AI数字秘书工作流

视频会议，正在成为新的泄密通道

【AI】通用 Skill 模板-实时保存经验

ZAP-GPT：基于大语言模型的自动化安全测试报告智能生成方案

树莓派部署区块链全节点：低成本参与链上治理实战指南

ARM GICv5 ITS架构解析与中断管理优化

初探 Kubernetes (k8s) 时简介部分重点是什么？

数字人一体机：企业降本增效的智能利器

量子退火在混合变量优化中的编码策略与应用

认知神经科学研究报告【20260032】

NextChat - 87,942 Stars 的 AI 助手，1 分钟部署，全平台可用 (2026-05-09 01:48)

LangGraph 核心概念全解笔记

大模型推理效率优化：预填充阶段与滑动窗口注意力实践

接地与隔离：电子系统安全与性能的平衡艺术

2026年企业GEO优化服务的选型逻辑与高性价比避坑指南

MCP协议探针工具包：从原理到实践，高效诊断AI应用服务

二手搅拌站成本优势解析

认知神经科学研究报告【20260033】

ARM scatter文件详解：内存布局控制与工程实践

Python 爬虫反爬突破：Referer 防盗链彻底绕过

LangGraph 多步骤任务规划

PullWeights MCP Server：AI模型仓库的MCP协议集成实践

2026年售后领先的静电地板品牌揭晓