当前位置: 首页 > news >正文

【大模型|本地部署】Qwen3.5:0.8B边缘本地部署电脑和手机

目录

      • 一、Qwen3.5:0.8B边缘本地部署
        • 1.1 本地电脑(便携)
        • 1.2 手机(Mate 40 Pro)
      • 二、使用期间的零散信息获取
        • 2.1 模型容易出现“生成塌陷(重复生成循环)”
        • 2.2 同样的问题+Qwen3.5 0.8B,对比电脑上,手机上更容易出现“生成塌陷”
        • 2.3 模型启动参数
        • 遗留事宜:

一、Qwen3.5:0.8B边缘本地部署

  • 1.1 本地电脑(便携)
    • 部署方式
      Ollama、llama.cpp、Qwen3.5 模型
    • 部分细节
      1. Ollama:用于简化大型语言模型(LLM)部署和运行的工具,它允许用户轻松地在本地计算机上下载、运行和管理各种大型语言模型,支持一键拉取模型。‌其他同类工具还有,包括但不限于LM Studio‌等。
        llama.cpp‌:用于在本地运行 LLaMA 系列模型的推理引擎,支持 CPU/GPU 混合推理(典型特点“分层分配”,预先将模型的某些层在 CPU 上执行,而其他层分配给 GPU 执行)。同类型的推理引擎,包括但不限于vLLM‌、TensorRT-LLM(NVIDIA 官方)、 ‌LMDeploy‌(国产)等。

      2. Qwen3.5-0.8B:模型大小250M-2GB不等,量化版本(INT4)250M-350M,运行内存最低要求(可用RAM至少1.5GB - 2GB)

      3. 本地部署成功后,交互UX效果

      4. 部分命令使用

        查看模型量化版本、模型启动参数等细节信息 ollama show qwen3.5:0.8b--modelfile 查看模型参数 ollama show qwen3.5:0.8b--parameters
  • 1.2 手机(Mate 40 Pro)
    • 部署方式
      Termux、llama.cpp、Qwen3.5 模型
    • 部分细节
      1. Termux
      2. 默认手动文本输入,构建手机语音输入交互(构建中)
      3. 本地部署成功后,交互UX效果

二、使用期间的零散信息获取

关键词:生成塌陷(重复生成循环)、模型启动参数、repeat-penalty

  • 2.1 模型容易出现“生成塌陷(重复生成循环)”
    • 极小参数模型,本身存在明显局限,大致如下:
      知识容量有限:0.8B参数远小于大模型,很多基础地理、历史知识记忆不牢固,容易混淆。
      上下文与逻辑弱:–ctx-size 2048 虽然够用,但小模型推理能力差,容易在多轮重复中 “跑偏”。
      采样参数影响:–temp 0.7 有一定随机性,–repeat-penalty 1.5 过高可能导致它强行重复错误结论。
      训练数据偏差:如果训练数据里这类地理知识样本不足,就会出现这种 “一本正经胡说八道” 的情况。
    • 解决思路,大致如下:
      换更大模型:优先尝试 1.8B/4B 版本的千问或其他同级别小模型,知识容量会显著提升。
      调整启动参数(发起豆包一起针对“模型启动参数进行调试”,都以失败告终):
      降低 --repeat-penalty 到 1.1~1.2,避免过度惩罚重复导致逻辑断裂。
      降低 --temp 到 0.1~0.3,减少随机性,让输出更保守、贴近训练数据。
      增加提示词约束:
      清理上下文:每次提问前用 Ctrl+C 重启会话,避免之前错误输出干扰新回答。
  • 2.2 同样的问题+Qwen3.5 0.8B,对比电脑上,手机上更容易出现“生成塌陷”
    • 具体体验场景
      1.问题“汉高祖是哪个朝代”,手机侧推理出现生成塌陷,导致推理中断,电脑侧模型推理闭环成功。
    • 原因分析
      模型精度的差距:手机端通过模型大小(534M)判断是q3_k_m量化版本,电脑端通过ollama命令查询,大致确认该Qwen 3.5 0.8B为默认版本(FP16(未量化 / 高精度))。
      量化和非量化区别:非量化版精度拉满但开销大,量化版牺牲极轻微精度换低开销、快速度。
  • 2.3 模型启动参数
    手机侧,优化后的启动参数: ./build/bin/llama-cli \ -m ./models/qwen3.5-0.8b.gguf \ --ctx-size 2048 \ -cnv \ -t $(nproc) \ --repeat-penalty 1.2 \ --temp 0.3
    • “重复惩罚系数” --repeat-penalty
      常规有效范围是 1.0 到 2.0。超过 2.0 可能会让模型生成无意义的乱码,低于 1.0 则没有惩罚效果。
      设为 1.0 时:完全没有惩罚,模型想重复多少次就重复多少次,适合需要生成排比句等特殊场景。
      设为 1.2-1.3 时:轻度惩罚。如果模型只是偶尔重复一两个词,比如 “我认为这个观点是对的,这个观点很有道理”,系统会允许这种轻微重复。但如果像你之前遇到的那样,连续重复整句 “Wait, I need to check”,系统就会开始扣分,阻止重复。
      设为 1.5 时:中度惩罚。哪怕模型重复半个句子或者关键词,比如连续说 “汉朝、汉朝、汉朝的开国皇帝”,系统也会强力干预,降低重复词出现的概率,迫使模型换用同义词或新句式。
      设为 2.0 时:重度惩罚。只要模型连续生成两个相同的词,比如 “皇帝 皇帝”,系统就会严厉扣分。这种设置能彻底杜绝重复,但也可能让模型语无伦次,比如把 “汉高祖刘邦” 说成 “汉高帝刘季” 这种生僻表达。
    • presence_penalty(存在惩罚)和repeat_penalty的参数区别
遗留事宜:
  1. 构建手机本地大模型之间的语音输入交互
  2. 手表部署
  3. 鸿蒙部署
http://www.jsqmd.com/news/484708/

相关文章:

  • FLUX.1-dev实战分享:如何利用开源模型生成细节丰富的创意视觉内容
  • 文献 环境因子是否会影响eDNA检测?
  • MiniCPM-o-4.5-nvidia-FlagOS生成LaTeX文档效果:从草稿到排版一气呵成
  • Quartus Prime Lite Edition 25.1 安装备忘
  • Qwen3-0.6B-FP8部署至Ubuntu服务器详解:从系统配置到服务上线
  • Qwen Pixel Art效果对比:与PixelDiffusion、Pix2Struct在细节还原度上的实测
  • 真实世界研究R代码总被药监局退回?这8个ADaM变量命名雷区,92%的临床数据科学家已中招
  • URBAN中如何设置阀门RTC调度
  • 鸿蒙常见问题分析五十:自定义Video组件的控制栏功能
  • 鸿蒙常见问题分析五十四:应用侧从H5侧接收参数报错问题
  • PHP 开发中 XSS 跨站脚本攻击问题详解及解决方案
  • Fish-Speech-1.5与SpringBoot集成:企业级TTS服务构建
  • docker入门基础命令
  • OpenClaw 的安全方案
  • DTD元素解析:XML结构基础
  • DeepAnalyze模型评测:8B参数版本的性能全面测试
  • 本科论文救星!Paperzz AI 写作:从选题到成文,4 步搞定 12000 字原创论文
  • 文墨共鸣作品集:100组中文常见转述句对的StructBERT语义相似度实测
  • Spring Boot 3.x开发中DSL配置与旧版配置API不兼容问题详解及解决方案
  • XSD简易元素入门指南
  • 7电平级联H桥逆变器:从仿真到现实的探索之旅
  • 【Ocean modeling + book(一个章节)】海洋模型与业务化海洋学发展综述
  • Ionic切换开关全攻略
  • 第十五届蓝桥杯c++B组:好数
  • 鸡眼扣自动摆盘实战指南:半自动化整列机为何成为行业首选?
  • 网络层IP理解
  • 基于MPC模型预测控制的“风储调频”系统:仿真与实际频率特性的对比研究
  • java--多线程--线程安全
  • 在openSUSE-Leap-15.6-DVD-x86_64中使用gnome-builder-45.0的基本功能(二)空白Makefile工程
  • AI在线客服系统源码独立管理后台,自动回复文本、图片、视频等多种消息类型