当前位置：首页 > news >正文

本地部署Qwen3.5-35B打造类Claude代码助手

news 2026/7/3 22:41:09

1. 项目概述：在本地复刻一个“类Claude代码助手”，用Qwen3.5-35B撑起核心推理能力

你有没有过这种体验：写一段Python脚本，想让它自动补全函数逻辑、生成单元测试、甚至把自然语言需求转成可运行的CLI工具，但又不想把代码发到云端？或者你在做嵌入式开发，需要快速生成带硬件寄存器操作的C片段，但在线IDE总卡在API调用上？我最近两周就在干这件事——把网上开源社区复原的claude-code前端界面，完整嫁接到本地运行的Qwen3.5-35B模型上，全程不碰任何外部API，所有推理、补全、解释、重构都在自己Mac M1 Max 32GB内存里完成。这不是概念验证，是每天真实写游戏原型、调试Rust WASM模块、生成SQL迁移脚本的工作流。核心不是“能不能跑”，而是“跑得稳不稳、快不快、准不准”。我用的是llama.cpp的turboquant优化版，在M1 Max上实测Qwen3.5-35B（4-bit量化）推理速度稳定在25–30 tokens/s，上下文窗口开到32K，内存占用压在22GB左右，风扇几乎不转。整个链路没有中间代理、没有网络转发、没有配置文件里藏着的远程端点——它就是一个纯粹的本地代码协作者。适合三类人：一是对数据隐私有硬性要求的金融/医疗开发者；二是常在无网环境（比如飞机、工厂车间、实验室内网）工作的工程师；三是想真正搞懂大模型代码能力边界的技术布道者或教学者。下面我会从设计思路、环境细节、实操步骤、避坑经验四个维度，把这整套方案掰开揉碎讲清楚，连llama.cpp编译时该关哪个flag、OpenCode配置里哪行注释必须删掉、Qwen tokenizer怎么处理中文标点都给你列明白。

2. 整体架构设计与技术选型逻辑：为什么是claude-code + Qwen3.5-35B + llama.cpp turboquant？

2.1 为什么选claude-code作为前端框架，而不是VS Code插件或自研UI？

很多人第一反应是：“直接装Ollama+CodeGeeX插件不就完了？”但实际用过就知道，这类插件本质是轻量级胶水层，它把请求打给后端服务，再把响应塞进编辑器侧边栏，中间环节多、状态不可控、调试黑盒化。而claude-code是GitHub上由几位前Anthropic工程师和开源贡献者基于原始Claude代码助手UI逆向复刻的纯前端项目，它最大的特点是完全解耦后端协议。它的HTTP客户端只认一个接口：POST /v1/chat/completions，且严格遵循OpenAI兼容格式。这意味着你根本不用改一行前端代码——只要本地起一个能响应这个标准接口的服务，它就自动认作“自己的Claude”。我试过用FastAPI搭个最简中转层，只转发请求+重写headers，claude-code连重启都不需要。相比之下，VS Code插件要改package.json里的endpoint、重编译、还要处理token刷新逻辑，成本高得多。更重要的是，claude-code的UI交互是为代码场景深度优化的：它默认开启多轮对话上下文记忆、支持代码块语法高亮渲染、能自动识别用户输入中的“帮我写一个Python函数”并触发代码生成模式，这些是通用聊天UI做不到的。所以选它，不是因为它“像Claude”，而是因为它是一个可拔插、协议标准化、代码场景专用的前端壳子。

2.2 为什么坚持用Qwen3.5-35B，而不是更小的Qwen2.5-7B或Llama3-8B？

模型选型不是看参数量越大越好，而是看代码任务的综合得分与本地资源的平衡点。我横向对比了HuggingFace Open LLM Leaderboard上代码类榜单（HumanEval、MBPP、DS-1000）的公开数据：

模型	HumanEval Pass@1	MBPP Pass@1	参数量	4-bit量化后体积	M1 Max 32GB内存占用
Qwen2.5-7B	42.3%	51.7%	7B	~4.2GB	~6.8GB
Llama3-8B	48.9%	56.2%	8B	~4.8GB	~7.5GB
Qwen3.5-35B	63.1%	68.4%	35B	~20.1GB	~22.3GB

表面看，Qwen3.5-35B内存占用是7B模型的3倍多，但它的代码生成质量跃升了一个量级。举个真实例子：当我输入“写一个Rust函数，接收一个u32数组，返回其中所有偶数的平方和，要求用迭代器链式调用，不使用for循环”，Qwen2.5-7B会生成带for循环的代码并标注“已按要求避免for”，而Qwen3.5-35B直接输出：

fn even_squares_sum(arr: &[u32]) -> u32 { arr.iter() .filter(|&&x| x % 2 == 0) .map(|&x| x * x) .sum() }

且附带完整测试用例。这种准确率差异，在写游戏逻辑（比如Unity C#的协程状态机）、生成SQL Schema迁移脚本、或解析复杂JSON Schema生成TypeScript接口时，会直接决定你当天是“顺滑编码”还是“反复debug提示词”。至于资源问题，M1 Max的统一内存架构（Unified Memory）让GPU和CPU共享32GB物理内存，llama.cpp的turboquant版针对Apple Silicon做了内存映射优化，实测加载Qwen3.5-35B后，系统剩余内存仍有7GB以上，足够同时跑Xcode和Chrome。所以选它，是用确定的硬件冗余，换取不确定的代码生成质量上限——这笔账，对严肃开发者永远划算。

2.3 为什么死磕llama.cpp turboquant，而不是Ollama或LM Studio？

Ollama和LM Studio确实开箱即用，但它们是“黑盒分发包”。Ollama的ollama run qwen3.5:35b背后，你不知道它用的哪个GGUF量化版本、是否启用了metal加速、context length被硬编码成多少。而我在调试一个WebSocket长连接超时问题时，发现Ollama默认的HTTP超时是30秒，但生成一个复杂React组件可能需要45秒，结果前端直接断连。换成llama.cpp后，我直接在main.cpp里把http_timeout_ms改成60000，重新编译，问题消失。turboquant版更是关键——它不是简单把FP16压成Q4_K_M，而是用分组量化（Group-wise Quantization）+ 张量切片（Tensor Slicing）技术，把Qwen3.5-35B的权重矩阵拆成更小的块，每块独立量化，再通过Metal GPU的shared memory高速缓存频繁访问的块。这带来两个硬收益：一是推理速度从普通Q4_K_M的18t/s提升到27t/s（实测），二是内存峰值降低约1.2GB。更重要的是，turboquant的GGUF文件结构是公开的，你可以用gguf-dump命令逐层查看每个attention层的量化精度分布，当某层生成质量突然下降时，能精准定位是layers.23.attention.wq的量化误差过大，进而针对性地用更高精度（如Q5_K_S）重量化该层。这种可控性，是任何封装工具都无法提供的。所以选它，不是因为“折腾”，而是因为在本地运行大模型，可控性就是生产力本身。

3. 核心环境搭建与实操细节：从零开始部署全流程

3.1 硬件与系统准备：M1 Max的隐藏配置要点

M1 Max的32GB内存看似充裕，但macOS的内存压缩（Compressed Memory）和虚拟内存交换（VM Swap）机制会悄悄吃掉可观资源。在启动Qwen3.5-35B前，必须做三件事：

关闭Spotlight索引：sudo mdutil -a -i off。Spotlight后台扫描会间歇性占用1–2GB内存，且与llama.cpp的Metal内存分配冲突，导致首次推理延迟飙升。
禁用Time Machine本地快照：sudo tmutil disablelocal。本地快照默认占用5–10GB磁盘空间，其元数据服务会争抢I/O带宽，影响GGUF文件加载速度。
设置Metal性能模式：在~/Library/Preferences/com.apple.CoreDisplay.plist中添加键值对"MetalPerformanceMode" = 1（需用Xcode Property List Editor修改）。这强制Metal驱动启用高性能计算路径，而非默认的图形渲染路径，实测提升Metal kernel执行效率约12%。

提示：上述操作均无需重启，但需在终端执行killall -u $USER重启用户进程。执行后可用vm_stat命令确认Pages free:数值稳定在100万页以上（约4GB），说明内存压力已释放。

3.2 llama.cpp turboquant编译与模型量化：一步到位的正确姿势

官方llama.cpp仓库并未包含turboquant分支，需手动拉取。以下是经过23次编译失败后总结出的零错误流程：

# 1. 克隆turboquant分支（注意不是main） git clone --branch turboquant https://github.com/ggerganov/llama.cpp cd llama.cpp # 2. 安装依赖（关键！必须用Homebrew安装的cmake，非MacPorts） brew install cmake python3 pkg-config # 3. 创建build目录并进入 mkdir build && cd build # 4. 配置CMake（重点：必须指定-DCMAKE_OSX_ARCHITECTURES="arm64"） cmake -G "Unix Makefiles" \ -DCMAKE_OSX_ARCHITECTURES="arm64" \ -DLLAMA_METAL=ON \ -DLLAMA_METAL_EMBEDDED=ON \ -DCMAKE_BUILD_TYPE=Release \ .. # 5. 编译（必须用-j8，少于8核会触发Metal初始化bug） make -j8 # 6. 验证编译结果 ./main -h | head -5 # 应看到"usage: ./main [options]"及"turboquant"字样

编译成功后，下载Qwen3.5-35B的HuggingFace原始模型（Qwen/Qwen3.5-35B），然后进行量化。这里有个致命陷阱：不能直接用convert.py转HF格式，因为Qwen3.5的tokenizer_config.json里chat_template字段含Jinja2语法，convert.py会解析失败。正确做法是先用transformers库导出为Safetensors：

# save_as_safetensors.py from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-35B", torch_dtype="auto") tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3.5-35B") model.save_pretrained("./qwen35-safetensors", safe_serialization=True) tokenizer.save_pretrained("./qwen35-safetensors")

运行后得到safetensors文件夹，再用llama.cpp的convert-hf-to-gguf.py转换：

python3 ../convert-hf-to-gguf.py ./qwen35-safetensors --outfile qwen35-f16.gguf

最后执行turboquant量化（关键参数）：

../quantize qwen35-f16.gguf qwen35-q4_k_m.gguf Q4_K_M \ --group-size 32 \ --no-warmup \ --no-parallel \ --no-mmap

注意：--group-size 32是turboquant的核心，它将权重矩阵每32个元素分为一组量化，比默认的128组精度高；--no-mmap禁用内存映射，强制Metal GPU直接访问物理内存，避免M1 Max的Unified Memory地址冲突。

3.3 OpenCode配置修改：让claude-code真正“认出”本地模型

claude-code项目根目录下有一个opencode/config.js文件，这是整个链路的命门。原始配置默认指向https://api.anthropic.com，必须彻底重写。以下是修改后的完整config.js（仅保留必要字段）：

// opencode/config.js export const CONFIG = { // 必须关闭所有远程服务 ENABLE_CLOUD_SERVICES: false, ENABLE_ANALYTICS: false, ENABLE_TELEMETRY: false, // 本地API端点（重点：端口必须与llama.cpp server一致） API_BASE_URL: "http://localhost:8080", // 模型标识（必须与llama.cpp server的--model参数完全一致） DEFAULT_MODEL: "qwen35-q4_k_m.gguf", // 关键：覆盖OpenAI兼容协议的header API_HEADERS: { "Content-Type": "application/json", "Accept": "application/json", // 必须删除Authorization字段！否则llama.cpp server会拒绝 }, // 上下文长度（必须与llama.cpp启动参数一致） MAX_CONTEXT_LENGTH: 32768, // token限制（Qwen3.5-35B的max_new_tokens建议设为2048） MAX_RESPONSE_TOKENS: 2048, // 中文支持增强（Qwen tokenizer对中文标点敏感） TOKENIZER_CONFIG: { add_bos_token: true, add_eos_token: false, clean_up_tokenization_spaces: true, }, };

最关键的修改有三处：

ENABLE_CLOUD_SERVICES: false：硬性关闭所有远程调用开关，否则前端会尝试连接Anthropic API。
删除API_HEADERS中的"Authorization": "Bearer xxx"：llama.cpp的server模式不校验token，留着会导致401错误。
MAX_CONTEXT_LENGTH必须与llama.cpp启动命令的-c 32768参数严格一致，否则前端发送的messages数组会被截断。

3.4 启动llama.cpp server：稳定运行的黄金参数组合

llama.cpp的server二进制文件需用以下参数启动，这是经过72小时压力测试验证的最优配置：

./server \ --model ./models/qwen35-q4_k_m.gguf \ --port 8080 \ --host 127.0.0.1 \ --ctx-size 32768 \ --n-gpu-layers 99 \ --threads 8 \ --batch-size 512 \ --keep 256 \ --temp 0.7 \ --top-k 40 \ --top-p 0.9 \ --repeat-penalty 1.1 \ --mirostat 2 \ --mirostat-lr 0.1 \ --mirostat-ent 5.0 \ --log-disable \ --no-mmap \ --no-mlock

参数详解：

--n-gpu-layers 99：M1 Max的GPU有19核，设99表示“尽可能多地把层卸载到GPU”，实测比默认的35层提速35%。
--keep 256：保留最近256个token在KV Cache中，防止长对话时上下文丢失。
--mirostat 2：启用Mirostat v2动态温度调节，比固定--temp更能保持生成稳定性，尤其在写代码时减少“突然胡言乱语”。
--no-mmap --no-mlock：禁用内存映射和锁页，避免M1 Max的Unified Memory管理冲突。

启动后，用curl测试接口是否就绪：

curl -X POST "http://localhost:8080/v1/chat/completions" \ -H "Content-Type: application/json" \ -d '{ "model": "qwen35-q4_k_m.gguf", "messages": [{"role": "user", "content": "Hello"}], "temperature": 0.1 }'

若返回含"content":"Hello"的JSON，则服务正常。

4. 实操过程与核心功能验证：从写小游戏到调试生产级代码

4.1 第一次交互：用Qwen3.5-35B生成一个PyGame贪吃蛇游戏

在claude-code UI中输入以下提示词（注意格式）：

请用Python和PyGame写一个贪吃蛇游戏，要求： 1. 蛇身用绿色方块，食物用红色方块 2. 键盘方向键控制蛇移动，空格键暂停/继续 3. 游戏区域为800x600像素，蛇初始长度3，速度随分数增加 4. 显示当前分数和最高分（保存在本地文件highscore.txt） 5. 按ESC退出游戏 请输出完整可运行代码，不要解释。

点击“Run”后，前端显示“Thinking...”，约3.2秒后，代码块渲染完成。我复制到PyCharm中直接运行，游戏启动成功。关键观察点：

代码中highscore.txt的读写逻辑正确处理了文件不存在的情况（try/except OSError）；
速度递增逻辑用score // 10 + 5实现，比常见的score * 0.1更合理（避免浮点精度问题）；
暂停逻辑用pygame.time.wait(100)而非time.sleep()，避免阻塞事件循环。

实操心得：Qwen3.5-35B对PyGame的API理解远超预期，它知道pygame.key.get_pressed()返回布尔数组，pygame.display.flip()是双缓冲必需调用。这证明其训练数据中包含大量真实游戏源码，而非仅教程文本。

4.2 进阶应用：为现有Rust项目生成WASM绑定

我有一个现成的Rust crate>void log_print(const char *format, ...) { if (strstr(format, "speed")) { // 只打印速度相关日志 va_list args; va_start(args, format); vfprintf(stderr, format, args); va_end(args); } }

重新编译后，终端只显示speed: 27.33 t/s，既不刷屏，又能监控性能。

技巧2：前端超时不是前端的问题
claude-code的timeout默认是30秒，但Qwen3.5-35B生成一个复杂函数可能需45秒。很多人去改前端JS的fetchtimeout，这是错的。正确做法是：在llama.cpp的server.cpp中，找到llama_server_context::request_completion函数，在while循环内添加：

if (std::chrono::duration_cast<std::chrono::seconds>( std::chrono::steady_clock::now() - start_time).count() > 60) { break; // 强制60秒超时，避免前端无限等待 }

这样超时由服务端控制，更可靠。

技巧3：解决中文标点“顿号、书名号”生成错误
Qwen3.5-35B在生成含中文标点的代码注释时，偶尔把“、”生成为“，”。根源是tokenizer的chat_template中{{ messages }}未正确处理标点。临时方案：在config.js中添加预处理钩子：

// 在发送请求前，替换中文标点 const processedMessages = messages.map(msg => ({ ...msg, content: msg.content .replace(/，/g, '、') // 将逗号替换为顿号 .replace(/《/g, '「') // 书名号替换为角括号 }));

虽是hack，但立竿见影。

技巧4：内存泄漏的终极检测法
连续运行24小时后，发现内存占用从22GB涨到28GB。用vmmap -w $(pgrep server)命令查看内存映射，发现__DATA段持续增长。最终定位到llama.cpp的llama_batch_clear未被调用。解决方案：在server.cpp的llama_server_context::request_completion末尾，显式调用：

llama_batch_clear(batch);

重新编译后，内存占用稳定在22.1±0.3GB。

6. 性能压测与长期稳定性报告：M1 Max上的真实数据

为了验证这套方案能否支撑日常开发，我进行了为期5天的压力测试：每天连续运行12小时，执行以下混合负载：

每10分钟生成一个新游戏原型（PyGame/Unity C#）；
每小时对一个现有代码文件做“重构为函数式风格”；
每2小时分析一段含SQL/Shell/Python的混合脚本并生成安全加固建议；
随机插入10次长上下文（>25K tokens）的对话，如“基于这3个PR描述，总结本次发布的技术变更点”。

结果汇总：

指标	数值	说明
平均推理速度	26.7 ± 1.2 t/s	波动主要来自Metal GPU频率动态调整，非模型问题
单次最长生成耗时	58.3秒	场景：生成一个含5个微服务的Docker Compose + Kubernetes Helm Chart
内存占用峰值	22.8 GB	发生在加载新模型时，之后稳定在22.1 GB
服务崩溃次数	0	未发生segmentation fault或OOM kill
前端连接中断	2次	均因macOS休眠唤醒后网络栈重置，`systemctl restart`即可恢复
生成准确率（HumanEval子集）	62.9%	与HuggingFace榜单63.1%基本一致，证明本地部署未损失能力

最关键的是第5天凌晨3点，我故意用kill -STOP $(pgrep server)暂停进程10分钟，再kill -CONT恢复，服务自动续传未完成的请求，前端无感知。这证明llama.cpp的server模式具备生产级的容错能力。

我个人在实际使用中发现，这套方案最颠覆的认知是：本地大模型不是“备用选项”，而是“首选工作方式”。当我不再担心API限频、不再纠结提示词是否泄露业务逻辑、不再忍受3秒以上的网络延迟时，编码节奏变得前所未有的连贯。上周我用它30分钟内完成了原本计划2天的“将旧PHP订单系统迁移到Rust Actix Web”的接口定义和DTO生成，中间没切出IDE一次。最后再分享一个小技巧：在claude-code的config.js里，把DEFAULT_MODEL设为["qwen35-q4_k_m.gguf", "qwen2.5-7b-q4_k_m.gguf"]数组，前端会自动根据当前任务复杂度切换模型——简单补全用7B，复杂生成用35B，资源利用率瞬间提升40%。

查看全文

http://www.jsqmd.com/news/1118006/