当前位置: 首页 > news >正文

找到一种方法:用LM Studio 和 llmster 可以把qwen3.5改成nothinking版本装载来提高响应速度

废话不多说直接拿Qwen3.5-9B-Q4_K_M.gguf模型举例,先用get命令下载这个模型,可以正常使用后。
找到模型目录,如:用户目录~/.lmstudio/models/lmstudio-community/Qwen3.5-9B-GGUF

[root@localhost ~]# cd .lmstudio/models/lmstudio-community
[root@localhost lmstudio-community]# ls -al
总用量 0
drwxr-xr-x. 5 root root 90 3月 25 17:12 .
drwxr-xr-x. 3 root root 32 3月 19 16:39 ..
drwxr-xr-x. 2 root root 71 3月 25 16:34 Qwen3.5-9B-GGUF
然后新建一个同样的目录,带上后缀如:
[root@localhost lmstudio-community]# mkdir Qwen3.5-9B-GGUF-no-thinking
[root@localhost lmstudio-community]# ls -al
总用量 0
drwxr-xr-x. 5 root root 90 3月 25 17:12 .
drwxr-xr-x. 3 root root 32 3月 19 16:39 ..
drwxr-xr-x. 2 root root 71 3月 25 16:34 Qwen3.5-9B-GGUF
drwxr-xr-x. 2 root root 24 3月 25 17:43 Qwen3.5-9B-GGUF-no-thinking
进入这个新建录目并建立一个model.yaml文件
[root@localhost lmstudio-community]# cd Qwen3.5-9B-GGUF-no-thinking/
[root@localhost Qwen3.5-9B-GGUF-no-thinking]# vim model.yaml
# 将如下内容存进去。注意缩进格式要一样,每层都是靠两个空格
model: lmstudio-community/Qwen3.5-9B-GGUF-no-thinking
base: lmstudio-community/Qwen3.5-9B-GGUF/Qwen3.5-9B-Q4_K_M.gguf
metadataOverrides:
reasoning: false
customFields:
- key: enableThinking
displayName: "Enable Thinking"
description: "Whether to allow thinking output before the final answer"
type: boolean
defaultValue: false
effects:
- type: setJinjaVariable
variable: enable_thinking
完了后,你的模型列表就会多一个模型出来,执行命令lms ls
这时候通过命令行lms load 还可能装载不进去(llmster此处还有bug)。要通过界面进行装载。
回到windows的 LM Studio界面上(因为已经通过LM Link互联上了),按CTRL + L,弹出窗口中应该已经有了这个模型,如果没有会有错误提示,你再修改model.yaml文件。
打开下面的手工调整模型参数开关,点击选中模型,显示参数窗口,托动条调整上下文长度16k左右(不要一下子调到200k,要一点一点的向大里试),和卸载到内存层数32,然后装载模型。

装载成功后,回到命令行试一下:
lms chat
/model
选这个no-thinking模型,聊几句看看正常否。
/exit退出

启动接口服务:
lms server start --help 查一下帮助
lms server start --bind 0.0.0.0 --port 1234 --cors(允许跨域)
在防火墙上开端口
firewall-cmd --add-port 1234/tcp

这时候就可以在你项目里配上本地地址了:不管是openclaw还是openwebui,以及anythingllm,n8,同时也支持clade code,url和open ai的不一样多个messages:http://192.168.0.121:1234/v1/messages,可以等等。
open ai格式url :http://192.168.0.121:1234/v1
key:lmstudio(随便输一个,不能空)
模型:Qwen3.5-9B-GGUF-no-thinking

同样的方法也适用别的带深度思考的模型,只需改改model.yaml文件的前两行就行了。

http://www.jsqmd.com/news/588268/

相关文章:

  • 别再找了,这应该是目前最好用的翻译插件了。
  • TongWeb8.0支持JBoss Weld‌
  • 基于单片机的水产养殖饲料自动投喂系统
  • NCMDump解密指南:三步解锁网易云音乐加密文件的终极方案
  • 嘿,今天来跟大家聊聊基于Copula多元互相关的随机场边坡模型。这模型可有意思啦,它在边坡稳定性研究这块有着独特的魅力
  • 第6章 Mosquitto用户认证与访问控制
  • 【自动驾驶技术解析】端到端架构与感知规控演进全景(2025–2026)
  • Node.js 类
  • Java 小白必看:MySQL 主从延迟是什么?怎么排查?怎么彻底解决?
  • 全球GPU算力荒背景下,主流算力平台价格与服务对比分析
  • Ace Data Cloud:使用 SERP API 获取 Google 搜索结果
  • Go语言的context.WithCancel中的协调资源
  • 面对 AI 热潮,企业最值得优先落地的5个业务场景
  • 国密GB35114+国标GB28181平台EasyGBS双重加持筑牢雪亮工程坚实安全底座
  • 我做了一个能连微信、家电、汽车和 AI 的超级管家:Wanny
  • 25、CSP、SRI、HttpOnly、SameSite、Secure 一次讲透
  • 基于Matlab的Dijkstra算法与蚁群优化算法路径规划
  • 快马AI助力:十分钟用openclaw搭建你的第一个网页爬虫原型
  • 测评 ASR 歌词生成模型
  • ComfyUI-VideoHelperSuite视频工作流技术指南:从基础操作到专业应用
  • COMSOL随机裂隙双重介质注浆数值模拟代做
  • 在线监测助力变电站隐蔽沉降灾害“早发现、早处置”
  • 题解:[JOI Final 2026] JOI 之旅 2 / JOI Tour 2
  • DirectX Repair增强版:免安装便携设计的系统维护利器
  • 快马平台十分钟速成:基于yolov8的目标检测web应用原型搭建
  • WarcraftHelper:让经典魔兽争霸3在现代电脑上完美运行的终极解决方案
  • ST7789显示屏驱动实战指南:从基础配置到高级应用
  • 多智能体、一致性、时滞 含通信时滞和输入时滞的多智能体一致性仿真 简单的多智能体一致性性仿真图
  • “网上很火,你却不懂的这些新梗”
  • 一天一个开源项目(第64篇):OpenCLI - 把任意网站、Electron 应用与本地工具变成统一 CLI