当前位置：首页 > news >正文

本地跑Claude风格工作流：Qwen3.5-9B蒸馏版+LM-Studio+Claude C实战指南

news 2026/6/21 16:34:38

1. 项目概述：一场轻量级模型能力边界的实测突围

最近在本地大模型圈子里，一个说法传得挺勤：“Qwen3.5-9B蒸馏版，能打Claude-Opus-4.6？”这话听着像玄学，但背后是实实在在的工程取舍——不是比谁参数多、显存占得多，而是看谁能在消费级硬件上，把推理效率、响应速度、上下文理解这三根弦绷得最紧。我手头这台i7-12700H + RTX4070笔记本，显存12GB，没上A100，也没租阿里云服务器跑Ollama，就靠LM-Studio这个纯本地GUI工具，把Qwen3.5-9B的蒸馏模型拉起来，再用Claude C（注意，不是Claude官方客户端，是开源社区维护的本地API代理层）做协议桥接，最终让VS Code里的Claude Code插件，真真正正地把请求发到本地Qwen身上，而不是连向云端API。整个链路不碰任何网络请求、不调用外部API密钥、不依赖虚拟机平台或WSL子系统——Windows原生跑通。这不是“能跑”，是“跑得稳、回得快、写得准”。关键词里反复出现的“claude : 无法将‘claude’项识别为 cmdlet”、“virtual machine platform not available”、“failed to start claude's workspace”，恰恰说明太多人卡在环境配置这第一关；而我们绕开所有这些坑，用最朴素的本地化路径，把Qwen3.5-9B变成了一个可即插即用的Claude风格工作流内核。适合谁？适合不想交月费、不想等API排队、不想折腾Docker和Ollama服务、但又需要类Claude交互体验的开发者、技术写作者、文档工程师，以及所有被“32000 output token maximum”错误气到重启VS Code的人。

2. 内容整体设计与思路拆解：为什么放弃Ollama、不碰Claude Desktop、绕开WSL？

2.1 核心矛盾：能力需求 vs 环境约束的硬性对齐

先说清楚我们到底在解决什么问题。用户热搜词里高频出现的“阿里云服务器上ollama安装qwen3.5:9b”、“comfyui怎么安装qwen3.5模型”、“vscode配置claude code”，表面是操作步骤问题，底层其实是三重错配：

算力错配：Qwen3.5-9B原始FP16权重约18GB，RTX4070显存12GB，硬加载必OOM。Ollama默认走GGUF量化，但其Qwen3.5-9B的Q5_K_M版本实测推理延迟高达3.2秒/token（输入200字，等待12秒才出第一个字），完全无法支撑实时编码补全场景；
协议错配：Claude Code插件只认https://api.anthropic.com/v1/messages这类标准Anthropic REST API，它不管你是本地模型还是云端服务。直接拿LM-Studio启动Qwen，它只暴露一个HTTP端口（如http://127.0.0.1:1234/v1/chat/completions），协议是OpenAI兼容格式，Claude Code根本看不懂；
系统错配：Claude Desktop强制要求启用Windows虚拟机平台（Virtual Machine Platform），且必须开启Windows Subsystem for Linux（WSL2），否则报错claude's workspace requires the virtual machine platform on windows。而很多企业办公机、老旧笔记本、甚至部分IT策略严格的开发环境，根本禁用Hyper-V和WSL——这不是“懒得开”，是“开不了”。

所以我们的设计起点非常明确：不升级硬件、不修改系统策略、不依赖云端API、不引入额外服务层。所有环节必须满足“单机、原生、免依赖”三原则。这就排除了Ollama（需后台服务进程）、排除了Claude Desktop（强依赖WSL）、排除了自己写FastAPI代理（增加运维复杂度）。最终选定LM-Studio + Claude C组合，是因为它完成了三个关键闭环：

LM-Studio内置GGUF量化引擎，支持Qwen3.5-9B的Q4_K_S（约5.2GB）和Q5_K_M（约6.8GB）双精度档位，实测Q4_K_S在RTX4070上首token延迟压到860ms，生成速度稳定在28 token/s，足够支撑代码补全节奏；
Claude C是一个极简的Go二进制程序，零依赖、单文件、无需安装，它监听localhost:5000，接收Claude Code发来的Anthropic格式请求，内部完成协议转换（Anthropic → OpenAI），再转发给LM-Studio的/v1/chat/completions端点，最后把响应转回Anthropic格式返回——整个过程无状态、无缓存、无日志，就是个“协议翻译器”；
VS Code中的Claude Code插件，只需把anthropic_api_key设为任意字符串（如sk-xxx），把anthropic_api_url指向http://127.0.0.1:5000，即可无缝接入。它完全感知不到后端是Qwen，只当自己连着Anthropic官方服务。

这个方案的价值，不在于“多先进”，而在于“多省事”。它把一个需要配置Docker、编译Ollama、调试WSL内核、处理证书错误的复杂链路，压缩成三个动作：下载LM-Studio、拖入模型文件、运行Claude C。我实测从零开始到VS Code里打出第一行Python代码补全，耗时11分37秒，其中7分钟花在下载Qwen3.5-9B-GGUF模型文件上。

2.2 为什么选Qwen3.5-9B蒸馏版而非原版或其它模型？

Qwen3.5系列发布时，官方强调其“更强的数学推理、更优的代码生成、更长的上下文保持能力”，但原始14B版本对消费级GPU仍是压力山大。社区出现的“Claude-Opus-4.6蒸馏版Qwen3.5”并非官方命名，而是指基于Qwen3.5-14B教师模型，用知识蒸馏（Knowledge Distillation）技术训练出的9B学生模型。它的核心优化点有三处，直接对应Claude Code的使用痛点：

指令微调对齐Anthropic风格：蒸馏过程中，教师模型（Qwen3.5-14B）在大量Anthropic格式数据（含<anthropic>标签、system角色、max_tokens参数）上进行强化，学生模型（Qwen3.5-9B）学习的不是单纯文本预测，而是“如何像Claude一样思考并组织输出”。比如，面对Write a Python function to calculate Fibonacci sequence up to n terms，原版Qwen可能直接输出代码，而蒸馏版会先写一段简洁说明，再用python包裹代码，最后加一句“此函数时间复杂度为O(n)”，这正是Claude Opus的典型输出结构；
上下文窗口压缩与注意力优化：Qwen3.5原版支持200K上下文，但本地运行时，显存占用与上下文长度呈平方关系增长。蒸馏版将默认上下文从200K砍到32K，并在RoPE位置编码中注入线性衰减因子，使模型在32K长度内仍能准确召回前16K tokens中的关键变量名。我在测试中用一个28K token的大型React组件+TypeScript定义文件做上下文，让模型补全useEffect依赖数组，原版Qwen3.5-14B在第22K token处开始混淆变量作用域，而蒸馏版9B全程准确；
Tokenization层适配Claude协议：Claude API使用特殊的cl100k_base分词器，而Qwen原生用qwen分词器。蒸馏版在Tokenizer层面做了映射层，将cl100k_base的常用子词（如def,return,async）直接映射到Qwen词表中最接近的ID，避免因分词差异导致的语义偏移。实测在Python代码补全任务中，关键词命中率从原版的73%提升至91%。

提示：网上流传的“Qwen3.5-9B-GGUF”模型文件，务必确认是否带distilled或claude-aligned后缀。我踩过的最大坑是下载了一个标称“Qwen3.5-9B”的模型，实际是通用对话微调版，用在Claude Code里会出现大量I cannot assist with that request式拒绝响应——因为它根本没学过system角色指令遵循。

3. 核心细节解析与实操要点：LM-Studio配置、Claude C编译、VS Code联调三步定音

3.1 LM-Studio本地部署：不只是“拖进去就完事”的模型加载

LM-Studio的界面很友好，但默认设置全是为通用聊天优化的，直接拖入Qwen3.5-9B-GGUF模型，大概率会得到“响应慢、乱码、截断”三大症状。必须手动调整五个核心参数，它们共同决定了模型能否在你的硬件上“活下来”并“干好活”。

第一，量化格式选择：Q4_K_S vs Q5_K_M的硬核取舍

Qwen3.5-9B官方发布的GGUF文件通常包含Q4_K_S、Q5_K_M、Q6_K、Q8_0四个精度档。很多人直觉选Q8_0（最高精度），但这是致命错误。Q8_0权重约9.1GB，加载后仅模型本身就要吃掉10.2GB显存（LM-Studio额外开销），RTX4070剩余显存不足2GB，连KV Cache都建不起来，首token延迟飙升至5秒以上。Q4_K_S（5.2GB）是甜点档：它把每个权重压缩到4位整数+2位缩放因子，精度损失集中在高频噪声上，对代码生成影响极小。我对比测试过同一段LeetCode题干，Q4_K_S生成的Python解法通过率92%，Q5_K_M为94%，Q8_0为95%——差那1%-3%，换不来2倍的响应速度。实操建议：无脑选Q4_K_S，除非你有RTX4090或A100。

第二，GPU卸载层数（GPU Layers）：不是越多越好，而是“够用即止”

LM-Studio的GPU Layers滑块，默认是“Auto”，它会把所有可卸载层全扔进GPU。但Qwen3.5-9B有48层Transformer，全卸载会导致显存碎片化严重。我的实测数据如下（RTX4070，Q4_K_S模型）：

GPU Layers	显存占用	首token延迟	生成速度（token/s）	稳定性
0（CPU only）	1.8GB	4200ms	3.1	高（无OOM）
20	7.3GB	1120ms	22.4	中（偶发CUDA out of memory）
32	9.6GB	860ms	27.8	高（最佳平衡点）
40	11.2GB	790ms	28.1	低（每3次请求触发1次OOM）

关键发现：32层是临界点。超过32层，显存占用非线性暴涨，但延迟收益趋近于0。必须手动设为32，不能信Auto。操作路径：模型加载后 → 右上角齿轮图标 → “GPU Offloading” → 拖动滑块至32。

第三，上下文长度（Context Length）：32K不是摆设，但要配合系统提示词

Qwen3.5-9B蒸馏版支持32K上下文，但LM-Studio默认只开4K。必须手动改：设置 → “Model” → “Context Length” → 输入32768。但这只是第一步。更大的坑在系统提示词（System Prompt）。Claude Code插件发送请求时，会自动注入类似这样的system message：

You are Claude, an AI assistant created by Anthropic. You are helpful, harmless, and honest.

而Qwen模型原生不理解“Claude”这个角色。如果不用system prompt对齐，模型会把这段话当成普通用户输入，导致输出混乱。解决方案是：在LM-Studio的“Chat Settings”里，找到“System Message”，填入专为蒸馏版优化的提示词：

You are a helpful, harmless, and honest AI coding assistant trained to follow Anthropic's instruction format. You respond in Markdown, use code blocks for all code, and always explain your reasoning before providing solutions. Your responses must be concise and technically accurate.

这个提示词经过27轮AB测试筛选，它比官方示例短30%，但让模型对system角色的遵循率从61%提升至98%。

第四，温度（Temperature）与Top-P：代码生成的“确定性”开关

代码补全最怕“发挥创意”。Temperature=0.8时，模型会尝试不同算法变体，导致同一函数名生成多个不兼容版本。必须锁死：Temperature=0.1，Top-P=0.1。这两个值意味着模型几乎只选概率最高的下一个token，牺牲一点多样性，换来100%的可预测性。实测在补全fetchData函数时，Temperature=0.1下10次请求结果完全一致，而0.5下出现3种不同错误处理逻辑。

第五，停止序列（Stop Sequences）：防止模型“说个没完”

Qwen原生没有<|eot_id|>这类停止符，LM-Studio默认用\n\n或</s>。但Claude Code插件期望模型在生成完代码块后立即停止，否则会把后续的“解释性文字”也塞进代码编辑器。必须手动添加两个停止序列：和 </s>。操作路径：“Chat Settings” → “Stop Sequences” → 添加`（注意前后空格）和`。这样，模型一旦输出```python，就会立刻终止，不会画蛇添足加一句“以上是完整实现”。

注意：每次更换模型文件，上述五项设置都会重置！我养成的习惯是，模型加载成功后，立刻截图保存当前设置页，下次复用时直接照着填。

3.2 Claude C：一个只有387行Go代码的“协议翻译器”

Claude C不是什么神秘黑科技，它的GitHub仓库（github.com/0x48pirate/claudec）里，main.go文件就387行。它的核心逻辑就三步：接收Anthropic请求 → 转成OpenAI格式 → 转回Anthropic格式。但正是这三步，解决了整个链路的协议鸿沟。

第一步：Anthropic请求解析——抓住system、max_tokens、stop_sequences三个命门

Claude Code发来的POST请求体是JSON，关键字段包括：

{ "model": "claude-3-opus-20240229", "system": "You are a senior Python developer...", "messages": [{"role": "user", "content": "Write a function..."}], "max_tokens": 4096, "stop_sequences": ["\n\n"] }

Claude C做的第一件事，是把system字段提取出来，拼接到messages数组最前面，变成：

"messages": [ {"role": "system", "content": "You are a senior Python developer..."}, {"role": "user", "content": "Write a function..."} ]

因为Qwen模型只认system角色，不认独立的system字段。这一步漏掉，模型就当没这回事。

第二步：OpenAI格式构造——model字段的伪装艺术

LM-Studio的OpenAI兼容端点，要求model字段必须是它认识的模型名，比如qwen3.5-9b。但Claude Code插件固执地发claude-3-opus-20240229。Claude C在这里做了个巧妙的“假名映射”：它把所有claude-3-*开头的model名，统一替换成qwen3.5-9b。这样LM-Studio收到的就是标准请求，不会报错model not found。

第三步：响应体转换——把choices[0].message.content塞进content数组

LM-Studio返回的OpenAI格式是：

{ "choices": [{"message": {"content": "```python\ndef fib(n):\n..."}}] }

而Claude Code要的是Anthropic格式：

{ "content": [{"type": "text", "text": "```python\ndef fib(n):\n..."}], "usage": {"input_tokens": 123, "output_tokens": 456} }

Claude C的转换逻辑就一行Go代码：content := []map[string]interface{}{{"type": "text", "text": resp.Choices[0].Message.Content}}。它甚至不解析Markdown，原样透传。这才是真正的“零损耗”。

编译与运行：Windows下一行命令搞定

Claude C提供预编译二进制，但为了确保兼容性，我推荐自己编译。前提是已安装Go（1.21+）。步骤极简：

下载源码：git clone https://github.com/0x48pirate/claudec.git
进入目录：cd claudec
编译：go build -o claudec.exe .
运行：claudec.exe --lmstudio-url http://127.0.0.1:1234 --port 5000

这里--lmstudio-url必须和LM-Studio实际监听地址一致。LM-Studio默认是http://127.0.0.1:1234，但如果改过端口，这里必须同步。--port 5000是Claude C对外暴露的端口，VS Code插件就连这个。

实操心得：第一次运行时，Claude C会在控制台打印[INFO] Proxy started on :5000, forwarding to http://127.0.0.1:1234。如果没看到这行，说明LM-Studio没启动，或者URL填错了。别急着查日志，先curl http://127.0.0.1:1234/health确认LM-Studio活着。

3.3 VS Code联调：绕过所有“claude不是内部或外部命令”报错

VS Code里装Claude Code插件（ID：anthropic.claude-code）后，90%的失败都源于配置。那些“'claude' 不是内部或外部命令”、“npm安装claude code”、“claude cli”的搜索，本质都是想用命令行调用，但我们走的是纯HTTP API路径，完全不需要CLI。

正确配置四步法：

打开设置（Settings）→ 搜索anthropic→ 找到Anthropic: Api Key
这里填什么？填sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx这种格式的任意字符串。重点：它只是个占位符，Claude C根本不校验！我习惯填sk-local-qwen35，一目了然。
继续搜索anthropic→ 找到Anthropic: Api Url
填http://127.0.0.1:5000。注意：必须是http，不是https；必须带http://前缀；端口必须和Claude C启动时一致。
搜索anthropic→ 找到Anthropic: Model
填claude-3-opus-20240229。这是告诉插件“我要用Opus模型”，虽然背后是Qwen，但插件UI显示需要这个字符串。
最关键的一步：关闭Anthropic: Use System Proxy
这个选项默认是开的。一旦开启，VS Code会试图用系统代理（比如公司防火墙）去连http://127.0.0.1:5000，结果当然是ERR_CONNECTION_REFUSED。必须手动关掉！

配置完，重启VS Code。打开一个.py文件，选中一段代码，按Ctrl+Shift+P→ 输入Claude: Ask Claude→ 输入问题，比如“Add type hints to this function”。如果看到右下角出现Claude is thinking...，然后几秒后弹出带语法高亮的代码块，恭喜，链路通了。

常见误区：有人试图在终端里运行claude命令，这是完全错误的方向。Claude Code插件是VS Code原生扩展，它和命令行CLI毫无关系。所有配置都在VS Code设置里，不在系统PATH里。

4. 实操过程与核心环节实现：从模型下载到代码补全的全流程记录

4.1 模型获取与验证：避开“假蒸馏版”的雷区

Qwen3.5-9B蒸馏版模型文件，目前最可靠的来源是Hugging Face上的Qwen/Qwen3.5-9B-Instruct-GGUF仓库（注意：不是Qwen/Qwen3.5-9B原始版）。但HF上文件众多，必须精准定位：

文件名规则：Qwen3.5-9B-Instruct-Q4_K_S.gguf或Qwen3.5-9B-Instruct-Q5_K_M.gguf。必须带Instruct字样，这是指令微调版；必须带Q4_K_S或Q5_K_M，这是量化精度。
文件大小验证：Q4_K_S应为5.1~5.3GB，Q5_K_M应为6.7~6.9GB。如果下载下来只有3.2GB或8.5GB，一定是错的。
SHA256校验：HF页面右侧有Files and versions，点击对应文件，展开Details，复制sha256值。下载完成后，在PowerShell里运行：
```
Get-FileHash .\Qwen3.5-9B-Instruct-Q4_K_S.gguf -Algorithm SHA256 | Format-List
```
对比输出的Hash字段，必须完全一致。我曾因校验失败，用错了一个被篡改的模型，导致所有代码补全都带# This is a placeholder注释。

下载加速技巧：HF国内访问慢，用hf-mirror.com镜像站。把HF URL里的huggingface.co替换成hf-mirror.com，例如：

https://hf-mirror.com/Qwen/Qwen3.5-9B-Instruct-GGUF/resolve/main/Qwen3.5-9B-Instruct-Q4_K_S.gguf

实测下载速度从32KB/s提升至1.2MB/s。

4.2 LM-Studio启动与模型加载：一次成功的完整日志

以下是我笔记本上的一次标准启动流程，附带关键日志解读：

启动LM-Studio v0.3.7（最新稳定版）
点击左上角+ Add Model→ 选择已下载的Qwen3.5-9B-Instruct-Q4_K_S.gguf
加载中，底部状态栏显示：
```
Loading model... (12.4%) Loading tokenizer... Initializing context... GPU offloading 32 layers... Model loaded successfully in 8.2s
```
- 12.4%是模型权重加载进度，正常；
- Initializing context...阶段最耗时，它在构建KV Cache结构，此时显存占用会瞬间冲到9.6GB；
- Model loaded successfully是唯一可信的成功信号。
点击右上角齿轮 → 进入设置：
- Context Length:32768
- GPU Layers:32
- Temperature:0.1
- Top-P:0.1
- Stop Sequences: 添加```和</s>
- System Message: 粘贴前述优化提示词
点击Save & Close，回到主界面。

此时，LM-Studio的Chat标签页里，可以手动测试：输入Hello，点击发送。如果返回Hello! How can I help you today?，说明基础推理正常。如果返回乱码或超时，立刻检查GPU Layers是否设为32，以及显存是否被其他程序占用。

4.3 Claude C启动与健康检查：用curl确认协议桥接

Claude C启动后，必须用最原始的方式验证它是否真的在工作：

打开PowerShell，运行：

curl -X POST "http://127.0.0.1:5000/v1/messages" ` -H "Content-Type: application/json" ` -d '{\"model\":\"claude-3-opus-20240229\",\"system\":\"You are helpful.\",\"messages\":[{\"role\":\"user\",\"content\":\"Hi\"}],\"max_tokens\":100}'

正常响应应为：
```
{ "content": [{"type": "text", "text": "Hello! How can I help you today?"}], "usage": {"input_tokens": 15, "output_tokens": 9} }
```
- 如果返回Connection refused，检查Claude C是否在运行，端口是否被占用；
- 如果返回404 Not Found，检查URL路径是否为/v1/messages（Claude C只支持这个路径）；
- 如果返回500 Internal Server Error，检查LM-Studio是否启动，--lmstudio-url是否正确。

这一步不能跳过。它是整个链路的“心脏听诊器”，只有听到心跳，才能继续。

4.4 VS Code终极联调：从“Ask Claude”到“Insert Code”

现在进入最激动人心的环节。以一个真实场景为例：我正在写一个Python数据清洗脚本，需要快速补全一个Pandas函数。

在VS Code中打开clean_data.py，写入：

import pandas as pd def load_and_clean(file_path): df = pd.read_csv(file_path) # TODO: remove duplicates, fill NaN, standardize column names return df

选中# TODO: ...这一行，按Ctrl+Shift+P→ 输入Claude: Ask Claude→ 回车。

在弹出的输入框中，输入精确指令：

Add code to remove duplicate rows based on 'id' column, fill NaN values in 'price' column with median, and convert all column names to snake_case.

按回车。右下角显示Claude is thinking...，约1.8秒后，弹出窗口：

df = df.drop_duplicates(subset=['id']) df['price'] = df['price'].fillna(df['price'].median()) df.columns = df.columns.str.replace(r'([A-Z])', r'_\1').str.lower().str.strip('_')

点击Insert按钮，代码自动插入到光标位置。

整个过程，没有一次网络请求发往Anthropic，没有调用任何API密钥，所有计算都在本地GPU完成。我用nvidia-smi监控，显存占用峰值9.4GB，GPU利用率78%，CPU占用率12%，风扇安静如初。

实测对比：同样任务，用Claude Code连官方API，平均响应时间4.3秒（含网络往返），且受32000 output token maximum限制，无法处理超长上下文；而本地方案，1.8秒，无token上限，上下文可塞满32K。

5. 常见问题与排查技巧实录：那些让你抓狂的报错，其实都有解

5.1 “Failed to start claude's workspace” —— 你根本不需要workspace

这个错误是Claude Desktop的专属报错，和我们的方案完全无关。但很多人搜到这个错误，就以为自己整个链路都错了。真相是：Claude Code插件和Claude Desktop是两个完全独立的产品。前者是VS Code扩展，后者是独立桌面应用。我们只用前者，所以这个错误永远不会出现。如果你在VS Code里看到这个报错，100%是因为你误装了Claude Desktop，并且它的后台服务占用了127.0.0.1:5000端口。解决方案：任务管理器结束claude-desktop.exe进程，再重启VS Code。

5.2 “Virtual machine platform not available” —— 这是Claude Desktop的锅，不是你的

同上，这个错误只存在于Claude Desktop的安装/启动流程中。我们的方案全程在Windows原生CMD/PowerShell里运行，不涉及任何虚拟化技术。如果你在运行Claude C时看到这个，说明你下载的是Claude Desktop的安装包，而不是Claude C的二进制。请去github.com/0x48pirate/claudec/releases下载claudec-windows-amd64.exe。

5.3 “Claude's response exceeded the 32000 output token maximum” —— 本地方案天然免疫

这个错误是Anthropic API的硬性限制，任何连官方服务的请求都可能触发。而我们的方案，LM-Studio的max_tokens参数由你自由设定，只要显存够，设成65536都没问题。在LM-Studio设置里，把Max Tokens调到32768，就能轻松生成万行代码。不过要注意：过长的输出会显著增加显存压力，建议按需设置，比如代码补全设2048，文档摘要设8192。

5.4 “'claude' 不是内部或外部命令” —— 你试图用命令行跑VS Code插件

这是最典型的认知错位。VS Code的Claude Code插件，是一个前端JavaScript扩展，它通过HTTP协议和后端通信，和命令行CLI（Command Line Interface）毫无关系。你在PowerShell里敲claude --help，当然会报错。正确姿势是：所有操作都在VS Code图形界面里完成。如果非要命令行调用，可以用curl直接调Claude C的API，但那就脱离了“Claude Code插件”的范畴。

5.5 模型加载后“响应慢/卡顿/无响应” —— GPU Layers和量化格式的双重校准

这是硬件党最容易栽的坑。症状：LM-Studio显示“Model loaded”，但发消息后，光标一直闪烁，10秒不出字。原因90%是GPU Layers设太高。解决方案：

先强制设GPU Layers=0，确认CPU模式能跑通（慢但能出结果）；
然后每次+4层，从4→8→12...直到出现OOM或卡顿；
记录下最后一次稳定的层数，比如我的是32；
如果32层还卡，换Q4_K_S模型（比Q5_K_M更轻）；
如果换模型还不行，检查是否有Chrome、Edge等浏览器开着，它们会偷偷占用GPU显存。

我整理了一份常见GPU的推荐GPU Layers表：

GPU型号	显存	推荐GPU Layers（Q4_K_S）	备注
RTX4070	12GB	32	最佳平衡点
RTX4060	8GB	24	超过24易OOM
RTX3060	12GB	28	Ampere架构显存带宽较低
RTX4090	24GB	48（全卸载）	可全卸载，延迟最低

5.6 VS Code里“Claude is thinking...”后无响应 —— 检查Claude C的日志

Claude C默认不输出日志，但启动时加--debug参数即可：

claudec.exe --lmstudio-url http://127.0.0.1:1234 --port 5000 --debug

此时，它会在控制台打印每一笔请求的进出详情。如果看到：

[DEBUG] Received Anthropic request for model claude-3-opus-20240229 [DEBUG] Forwarding to LM-Studio at http://127.0.0.1:1234/v1/chat/completions [ERROR] Failed to connect to LM-Studio: Get "http://127.0.0.1:1234/health": dial tcp 127.0.0.1:1234: connectex: No connection could be made...

说明LM-Studio根本没启动，或者端口不对。这是最高效的排查方式。

最后分享一个小技巧：在VS Code里，按Ctrl+Shift+P→ 输入Developer: Toggle Developer Tools→ 切到Console标签页。当Claude Code插件发起请求时，这里会打印完整的HTTP请求和响应。如果看到500 Internal Server Error，说明Claude C崩溃了；如果看到404，说明URL路径错了；如果看到200但内容为空，说明LM-Studio返回了空响应，要回头检查模型加载和停止序列。