当前位置：首页 > news >正文

【大模型|本地部署】Qwen3.5:0.8B边缘本地部署电脑和手机

news 2026/7/5 8:14:59

- - 一、Qwen3.5:0.8B边缘本地部署
  - - 1.1 本地电脑（便携）
    - 1.2 手机（Mate 40 Pro）
  - 二、使用期间的零散信息获取
  - - 2.1 模型容易出现“生成塌陷（重复生成循环）”
    - 2.2 同样的问题+Qwen3.5 0.8B，对比电脑上，手机上更容易出现“生成塌陷”
    - 2.3 模型启动参数
    - 遗留事宜：

一、Qwen3.5:0.8B边缘本地部署

1.1 本地电脑（便携）
- 部署方式
  Ollama、llama.cpp、Qwen3.5 模型
- 部分细节
  1. Ollama：用于简化大型语言模型（LLM）部署和运行的工具，它允许用户轻松地在本地计算机上下载、运行和管理各种大型语言模型，支持一键拉取模型。‌其他同类工具还有，包括但不限于LM Studio‌等。
    llama.cpp‌：用于在本地运行 LLaMA 系列模型的推理引擎，支持 CPU/GPU 混合推理（典型特点“分层分配”，预先将模型的某些层在 CPU 上执行，而其他层分配给 GPU 执行）。同类型的推理引擎，包括但不限于vLLM‌、TensorRT-LLM（NVIDIA 官方）、 ‌LMDeploy‌（国产）等。
  2. Qwen3.5-0.8B：模型大小250M-2GB不等，量化版本（INT4）250M-350M，运行内存最低要求（可用RAM至少1.5GB - 2GB）
  3. 本地部署成功后，交互UX效果
  4. 部分命令使用
```
查看模型量化版本、模型启动参数等细节信息 ollama show qwen3.5:0.8b--modelfile 查看模型参数 ollama show qwen3.5:0.8b--parameters
```
1.2 手机（Mate 40 Pro）
- 部署方式
  Termux、llama.cpp、Qwen3.5 模型
- 部分细节
  1. Termux
  2. 默认手动文本输入，构建手机语音输入交互（构建中）
  3. 本地部署成功后，交互UX效果

二、使用期间的零散信息获取

关键词：生成塌陷（重复生成循环）、模型启动参数、repeat-penalty

2.1 模型容易出现“生成塌陷（重复生成循环）”
- 极小参数模型，本身存在明显局限，大致如下：
  知识容量有限：0.8B参数远小于大模型，很多基础地理、历史知识记忆不牢固，容易混淆。
  上下文与逻辑弱：–ctx-size 2048 虽然够用，但小模型推理能力差，容易在多轮重复中 “跑偏”。
  采样参数影响：–temp 0.7 有一定随机性，–repeat-penalty 1.5 过高可能导致它强行重复错误结论。
  训练数据偏差：如果训练数据里这类地理知识样本不足，就会出现这种 “一本正经胡说八道” 的情况。
- 解决思路，大致如下：
  换更大模型：优先尝试 1.8B/4B 版本的千问或其他同级别小模型，知识容量会显著提升。
  调整启动参数（发起豆包一起针对“模型启动参数进行调试”，都以失败告终）：
  降低 --repeat-penalty 到 1.1~1.2，避免过度惩罚重复导致逻辑断裂。
  降低 --temp 到 0.1~0.3，减少随机性，让输出更保守、贴近训练数据。
  增加提示词约束：
  清理上下文：每次提问前用 Ctrl+C 重启会话，避免之前错误输出干扰新回答。
2.2 同样的问题+Qwen3.5 0.8B，对比电脑上，手机上更容易出现“生成塌陷”
- 具体体验场景
  1.问题“汉高祖是哪个朝代”，手机侧推理出现生成塌陷，导致推理中断，电脑侧模型推理闭环成功。
- 原因分析
  模型精度的差距：手机端通过模型大小（534M）判断是q3_k_m量化版本，电脑端通过ollama命令查询，大致确认该Qwen 3.5 0.8B为默认版本（FP16（未量化 / 高精度））。
  量化和非量化区别：非量化版精度拉满但开销大，量化版牺牲极轻微精度换低开销、快速度。
2.3 模型启动参数
```
手机侧，优化后的启动参数： ./build/bin/llama-cli \ -m ./models/qwen3.5-0.8b.gguf \ --ctx-size 2048 \ -cnv \ -t $(nproc) \ --repeat-penalty 1.2 \ --temp 0.3
```
- “重复惩罚系数” --repeat-penalty
  常规有效范围是 1.0 到 2.0。超过 2.0 可能会让模型生成无意义的乱码，低于 1.0 则没有惩罚效果。
  设为 1.0 时：完全没有惩罚，模型想重复多少次就重复多少次，适合需要生成排比句等特殊场景。
  设为 1.2-1.3 时：轻度惩罚。如果模型只是偶尔重复一两个词，比如 “我认为这个观点是对的，这个观点很有道理”，系统会允许这种轻微重复。但如果像你之前遇到的那样，连续重复整句 “Wait, I need to check”，系统就会开始扣分，阻止重复。
  设为 1.5 时：中度惩罚。哪怕模型重复半个句子或者关键词，比如连续说 “汉朝、汉朝、汉朝的开国皇帝”，系统也会强力干预，降低重复词出现的概率，迫使模型换用同义词或新句式。
  设为 2.0 时：重度惩罚。只要模型连续生成两个相同的词，比如 “皇帝皇帝”，系统就会严厉扣分。这种设置能彻底杜绝重复，但也可能让模型语无伦次，比如把 “汉高祖刘邦” 说成 “汉高帝刘季” 这种生僻表达。
- presence_penalty（存在惩罚）和repeat_penalty的参数区别