当前位置：首页 > news >正文

llama.cpp-tq3编译指南：运行Qwen3.6-35B-A3B-TQ3_4S的必备环境

news 2026/7/29 21:00:42

llama.cpp-tq3编译指南：运行Qwen3.6-35B-A3B-TQ3_4S的必备环境

【免费下载链接】Qwen3.6-35B-A3B-TQ3_4S项目地址: https://ai.gitcode.com/hf_mirrors/YTan2000/Qwen3.6-35B-A3B-TQ3_4S

想要在本地运行强大的Qwen3.6-35B-A3B模型但受限于硬件资源？🤔 本终极指南将带你完成llama.cpp-tq3的完整编译流程，让你轻松部署12.4GiB的TQ3_4S量化版本，在16GB显存上获得极致性能！🚀

Qwen3.6-35B-A3B-TQ3_4S是一个采用TurboQuant TQ3_4S混合精度MoE压缩技术的高效量化模型，它将35B参数的大型语言模型压缩到仅12.4GiB，同时保持了出色的推理质量。通过本文的完整编译指南，你将掌握在本地环境部署这一先进AI模型的全部技巧。

📋 环境准备与系统要求

硬件配置推荐

组件	最低要求	推荐配置
GPU显存	12GB	16GB+
系统内存	16GB	32GB
存储空间	30GB	50GB
CUDA版本	11.8+	12.0+

软件依赖安装

在开始编译之前，确保系统已安装以下必要组件：

# Ubuntu/Debian系统 sudo apt update sudo apt install -y build-essential cmake git python3-pip # 安装CUDA工具包（如果使用NVIDIA GPU） sudo apt install -y nvidia-cuda-toolkit

🛠️ llama.cpp-tq3编译完整步骤

步骤1：克隆TurboQuant分支

由于Qwen3.6-35B-A3B-TQ3_4S需要特殊的TurboQuant运行时支持，你必须使用特定的llama.cpp分支：

git clone https://gitcode.com/hf_mirrors/YTan2000/Qwen3.6-35B-A3B-TQ3_4S cd llama.cpp-tq3

步骤2：配置编译选项

根据你的硬件选择最佳编译配置：

硬件类型	CMake配置	优化重点
NVIDIA GPU	`-DLLAMA_CUDA=ON`	CUDA加速
Apple Silicon	`-DLLAMA_METAL=ON`	Metal加速
CPU Only	`-DLLAMA_BLAS=ON`	BLAS优化

mkdir build && cd build cmake .. -DLLAMA_CUDA=ON -DCMAKE_BUILD_TYPE=Release

步骤3：开始编译过程

使用多线程加速编译，确保充分利用系统资源：

make -j$(nproc)

编译完成后，你将在build/bin/目录下获得以下关键可执行文件：

llama-server- 模型服务端
llama-cli- 命令行交互工具
llama-bench- 性能测试工具

⚡ Qwen3.6-35B-A3B-TQ3_4S快速部署

下载模型文件

从项目仓库获取优化后的模型文件：

# 下载主模型文件 wget https://gitcode.com/hf_mirrors/YTan2000/Qwen3.6-35B-A3B-TQ3_4S/Qwen3.6-35B-A3B-TQ3_4S.gguf # 下载多模态投影器（如需视觉功能） wget https://gitcode.com/hf_mirrors/YTan2000/Qwen3.6-35B-A3B-TQ3_4S/mmproj-BF16.gguf

一键启动服务

使用以下命令快速启动模型服务：

./build/bin/llama-server \ -m Qwen3.6-35B-A3B-TQ3_4S.gguf \ -ngl 99 -c 4096 -np 1 \ -ctk q4_0 -ctv tq3_0 -fa on \ --jinja \ --reasoning off --reasoning-budget 0 --reasoning-format deepseek

🖼️ 启用多模态功能

如果需要视觉处理能力，添加多模态投影器：

./build/bin/llama-server \ -m Qwen3.6-35B-A3B-TQ3_4S.gguf \ --mmproj mmproj-BF16.gguf \ -ngl 99 -c 4096 -np 1 \ -ctk q4_0 -ctv tq3_0 -fa on \ --jinja --no-mmproj-offload \ --reasoning off --reasoning-budget 0 --reasoning-format deepseek

📊 性能优化与调参技巧

核心参数详解

参数	作用	推荐值
`-ngl`	GPU层数	99（全GPU运行）
`-c`	上下文长度	4096
`-ctk`	KV缓存量化	q4_0
`-ctv`	值缓存量化	tq3_0
`-fa`	Flash Attention	on

实测性能数据

在RTX 5060 Ti 16GB上的表现：

PP512（预填充）：1832 token/秒 ⚡
TG128（文本生成）：107 token/秒 ✨
模型大小：12.4 GiB 📦
比特每权重：3.07 BPW 🎯

🔧 工具调用功能验证

Qwen3.6-35B-A3B-TQ3_4S完美支持工具调用功能，适用于智能代理工作流。使用项目提供的测试脚本验证功能：

chmod +x test_tool_calls.sh ./test_tool_calls.sh 8085

工具调用推荐配置

--jinja --reasoning off --reasoning-budget 0 --reasoning-format deepseek

⚠️重要提示：避免使用高于0.5的--presence-penalty参数进行工具调用，高值可能导致重复的工具调用循环。

🚀 高级配置与调优

内存优化策略

全GPU运行：设置-ngl 99让模型完全加载到GPU显存
无CPU卸载：12.4GiB模型完美适配16GB VRAM
混合精度：TQ3_4S量化平衡了精度与效率

推理质量保证

模型在标准QA基准测试中表现优异：

法国首都是什么？ ✅
2+2等于几？ ✅
Python字符串反转？ ✅
重力原理？ ✅
二战历史？ ✅
质数判断？ ✅
水的沸点？ ✅
莎士比亚作品？ ✅
木星特征？ ✅
英文问候翻译？ ✅

10/10全对🎉

💡 故障排除与常见问题

编译错误解决

CUDA版本不匹配：更新到CUDA 11.8+版本
内存不足：减少make -j的线程数
依赖缺失：确保安装完整开发工具链

运行问题排查

模型加载失败：检查GGUF文件完整性
显存不足：降低-ngl值或使用CPU卸载
推理速度慢：确认Flash Attention已启用

📈 最佳实践总结

通过本指南，你已经掌握了：

✅ llama.cpp-tq3环境的完整搭建
✅ Qwen3.6-35B-A3B-TQ3_4S模型的高效部署
✅ 多模态功能的启用配置
✅ 工具调用功能的验证方法
✅ 性能调优的关键参数

现在你可以在本地轻松运行这个强大的35B参数模型，享受高速推理体验！无论是开发AI应用、进行学术研究还是个人学习，Qwen3.6-35B-A3B-TQ3_4S都能为你提供稳定可靠的服务。

准备好开始你的AI之旅了吗？立即按照本指南操作，体验TurboQuant TQ3_4S量化技术带来的性能飞跃！🚀

【免费下载链接】Qwen3.6-35B-A3B-TQ3_4S项目地址: https://ai.gitcode.com/hf_mirrors/YTan2000/Qwen3.6-35B-A3B-TQ3_4S

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/905045/

精准客户成本归因：告别代理分摊，实现SaaS/云服务真实利润分析

终极Wand增强教程：三步免费解锁专业版，开启游戏修改新时代

用Python和Pandas复现Lending Club数据分析：从数据清洗到可视化洞察的完整流程

Drawio桌面版终极指南：三步解决文件损坏问题，快速恢复宝贵图表数据

从城市白领到农场主：我是如何用一台MacBook和一台3马力耕耘机，实现写作与务农双线作战的

手把手教你用OSX-KVM项目搞定macOS虚拟机：从下载镜像到配置XML的完整避坑指南

性能碾压同类！PaddleOCR-VL在OmniDocBench benchmark上的SOTA表现解析

哪个执医课程性价比高？请看这份选择指南 - 医考机构品牌测评专家

全球化资产配置平台排行：合规与服务实力对比 - 互联网科技品牌测评

13703黄大年茶思屋榜文137期·第三题：Decoding生成长度预测

Claude生成单元测试靠谱吗？深度评测12类边界场景下的通过率与可维护性数据

实战踩坑：在Ubuntu 24.04上用mdadm组RAID 0，性能翻倍后我遇到了这些问题

手把手教你：Windows 10开机卡在grub？不用EasyUEFI，用Diskpart三步搞定启动项

Ascend-SACT/Mineru-Optimization环境变量配置：解锁NPU性能的10个关键参数 [特殊字符]

Ynoi 乱做

洛谷P1048 [NOIP 2005 普及组] 采药

CICC/gtr-t5-xl与sentence-transformers集成：版本兼容性终极指南

【独家首发】Gemini 2.5 Pro东南亚语言基准测试报告：对比Llama-3-70B与Claude-3.5-Sonnet在柬埔寨语法律文本生成任务中BLEU+42.6%领先优势

基于MJD112晶体管的12V LED背光驱动电路设计与PCB实战

Linux服务器内存被‘吃’光了？手把手教你用/proc/meminfo和slabinfo定位内核内存泄露

鸣潮自动化终极指南：如何用ok-ww轻松解放双手，快速完成日常任务

微信小程序定位失败？别慌，手把手教你用uni.getSystemInfo和uni.authorize搞定权限检测与引导

张掖外贸网站开发找哪家？WaiMaoYa 外贸鸭建好外贸独立站，坐等海外客户主动上门 - 外贸营销驿站

GitHub Copilot for VS Code 中文使用完整教程

AIBOX-1684X 风扇工作策略调节

京东后端Agent开发面试全解析：硬核技术+实战场景，小白也能收藏学习！

Windows 11专业瘦身实战：3步实现高效系统优化与隐私保护

淘金币自动化脚本：技术实现与效率提升的完美结合

TinyLLama-v0-openmind入门指南：如何用这个迷你Llama模型快速生成故事？

前瞻布局・智领金陵｜2026 南京 8 大小程序服务商榜单 - 软件测评师