当前位置：首页 > news >正文

Ubuntu系统上通义千问1.5-1.8B-Chat-GPTQ-Int4的部署教程

news 2026/3/27 4:37:49

Ubuntu系统上通义千问1.5-1.8B-Chat-GPTQ-Int4的部署教程

十分钟搞定大模型本地部署，零基础也能轻松上手

1. 前言：为什么选择这个模型？

最近很多朋友都在问，有没有适合新手入门的大模型，既要容易部署，又能在普通电脑上运行。今天介绍的这款通义千问1.5-1.8B-Chat-GPTQ-Int4版本，就是个很不错的选择。

这个模型最大的特点就是"轻量高效"——模型大小只有1.8B参数，经过GPTQ量化后更是大大降低了硬件需求，普通家用电脑就能跑起来。而且它是专门为对话场景优化的，日常问答、文本生成、代码编写等任务都能胜任。

我自己在Ubuntu系统上实测了一下，从零开始到能正常对话，整个过程不到十分钟。下面就把这个详细的部署过程分享给大家，跟着步骤走，你也能快速搭建自己的AI助手。

2. 准备工作：检查你的系统环境

在开始之前，先确认一下你的Ubuntu系统是否符合要求。这个模型对硬件要求不高，但有些基础依赖是必须的。

系统要求：

Ubuntu 18.04或更高版本（推荐20.04 LTS或22.04 LTS）
至少8GB内存（16GB更流畅）
至少10GB可用磁盘空间
Python 3.8或更高版本

检查Python版本：打开终端，输入以下命令：

python3 --version

如果显示Python 3.8或更高版本，就可以继续下一步。如果版本太低，需要先升级Python：

sudo apt update sudo apt install python3.9 # 安装Python 3.9

3. 第一步：系统更新与依赖安装

好的开始是成功的一半，我们先来更新系统和安装必要的依赖包。

在终端中依次执行以下命令：

# 更新软件包列表 sudo apt update # 升级已安装的包 sudo apt upgrade -y # 安装必要的依赖 sudo apt install -y python3-pip python3-venv git wget curl # 安装PyTorch相关依赖（选择适合你硬件的版本） # 如果你有NVIDIA显卡，安装CUDA版本的PyTorch： pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 如果没有独立显卡，安装CPU版本： pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

这些命令会确保你的系统处于最新状态，并安装好运行模型所需的基础环境。整个过程大概需要5-10分钟，取决于你的网速。

4. 第二步：创建虚拟环境

为什么需要虚拟环境？就像给这个项目单独准备一个"房间"，避免与其他Python项目产生冲突。

创建并激活虚拟环境：

# 创建名为qwen的虚拟环境 python3 -m venv qwen-env # 激活虚拟环境 source qwen-env/bin/activate

激活后，你的命令行前面会出现(qwen-env)的提示，表示已经在虚拟环境中了。接下来所有操作都在这个环境中进行。

5. 第三步：安装模型运行库

现在我们来安装运行通义千问模型所需的Python库：

# 安装transformers库（这是运行模型的核心库） pip install transformers # 安装加速推理的库 pip install accelerate # 安装其他辅助库 pip install sentencepiece protobuf

这些库的作用：

transformers：提供了加载和运行模型的接口
accelerate：加速模型推理过程
sentencepiece：处理文本分词
protobuf：数据序列化工具

安装过程大概需要2-3分钟，耐心等待即可。

6. 第四步：下载模型文件

模型文件有点大，我们直接用代码来自动下载。创建一个Python脚本来自动完成这个过程：

新建一个名为download_model.py的文件：

from transformers import AutoModelForCausalLM, AutoTokenizer # 模型名称（这就是我们要下载的通义千问量化版本） model_name = "Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4" print("开始下载模型，这可能需要一些时间...") # 自动下载模型和分词器 model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", # 自动选择设备（GPU或CPU） trust_remote_code=True ) tokenizer = AutoTokenizer.from_pretrained(model_name) print("模型下载完成！")

运行下载脚本：

python download_model.py

第一次运行时会自动下载模型文件，大小约1.2GB。下载时间取决于你的网速，一般需要5-15分钟。

小贴士：如果下载中断，可以重新运行命令，它会自动续传。

7. 第五步：测试模型是否正常工作

下载完成后，我们来写一个简单的测试脚本，验证模型是否能正常工作：

创建test_model.py文件：

from transformers import AutoModelForCausalLM, AutoTokenizer # 加载模型和分词器 model_name = "Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", trust_remote_code=True ) # 准备输入问题 question = "你好，请介绍一下你自己" # 编码输入 inputs = tokenizer(question, return_tensors="pt") # 生成回答 outputs = model.generate(**inputs, max_new_tokens=100) # 解码输出 answer = tokenizer.decode(outputs[0], skip_special_tokens=True) print("问：", question) print("答：", answer)

运行测试脚本：

python test_model.py

如果一切正常，你会看到模型生成的自我介绍。第一次运行可能会稍慢一些，因为需要加载模型到内存中。

8. 第六步：创建交互式对话脚本

现在我们来创建一个更实用的交互式对话脚本，可以连续与模型交流：

创建chat.py文件：

from transformers import AutoModelForCausalLM, AutoTokenizer # 加载模型 model_name = "Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", trust_remote_code=True ) # 设置模型为评估模式 model.eval() print("通义千问1.8B模型已加载完成！") print("输入'退出'或'quit'可以结束对话") print("=" * 50) while True: # 获取用户输入 user_input = input("你：") if user_input.lower() in ['退出', 'quit', 'exit']: print("再见！") break # 构建对话格式 messages = [ {"role": "user", "content": user_input} ] # 编码输入 text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) inputs = tokenizer(text, return_tensors="pt") # 生成回复 outputs = model.generate( **inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.8 ) # 解码并打印回复 response = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True) print("AI：", response) print("-" * 50)

运行对话脚本：

python chat.py

现在你可以开始与模型对话了！试试问它一些问题，比如："写一首关于春天的诗"或者"用Python写一个计算器程序"。

9. 常见问题解决

在部署过程中可能会遇到一些问题，这里列举几个常见的：

问题1：内存不足

OutOfMemoryError: CUDA out of memory

解决：尝试减小max_new_tokens参数的值，或者在加载模型时设置device_map="cpu"强制使用CPU。

问题2：下载中断

ConnectionError: Error while downloading

解决：重新运行下载命令，支持断点续传。如果一直失败，可以尝试设置代理。

问题3：版本冲突

ImportError: cannot import name 'xxx'

解决：确保在虚拟环境中安装依赖，可以尝试重新创建虚拟环境。

问题4：生成速度慢解决：这是正常现象，因为是在CPU上运行。如果有NVIDIA显卡，确保安装了CUDA版本的PyTorch。

10. 使用技巧和建议

为了让模型表现更好，这里分享几个实用技巧：

1. 提问要具体

不好："写文章"
好："写一篇关于人工智能在医疗领域应用的短文，300字左右"

2. 控制生成长度通过调整max_new_tokens参数来控制回复长度，一般设置100-500之间。

3. 调整创造性

temperature=0.1：更保守、确定性强的回答
temperature=0.9：更创造性、多样性的回答

4. 批量处理问题如果需要处理多个问题，可以修改脚本批量处理，避免重复加载模型。

5. 定期更新记得定期更新transformers库，获取性能改进和新功能：

pip install --upgrade transformers

11. 总结

整个部署过程比想象中要简单很多吧？其实大模型部署并没有那么神秘，只要跟着步骤一步步来，谁都能在自己的电脑上运行AI助手。

这个1.8B的版本虽然参数不多，但日常使用完全够用了。写写文案、生成创意内容、解答技术问题，表现都还不错。最重要的是它真的很轻量，普通笔记本电脑都能流畅运行。

建议你先从简单的对话开始，熟悉模型的特点和能力边界。等熟练之后，可以尝试用它来辅助编程、写作或者学习。有时候它给出的答案可能会让你惊喜。

如果在使用过程中遇到其他问题，或者发现了什么有趣的使用技巧，欢迎分享出来。技术就是在这样的交流中不断进步的。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/532872/

嵌入式通信协议设计原则与实现技巧

复杂销售场景破局：面向大中型企业的AI CRM系统实战方案 - 纷享销客智能型CRM

【数据结构与算法】第4篇：算法效率衡量：时间复杂度和空间复杂度

问卷设计“智变”风暴：书匠策AI如何引领科研新风尚？

丹青识画部署案例：海外孔子学院中文教学AI工具箱中的文化理解模块

PaddleOCR-VL-WEB保姆级教程：从部署到高性能调优全流程

西安权际海外移民靠谱吗，口碑评价如何值得信任吗 - 工业推荐榜

比迪丽LoRA模型解决403 Forbidden错误：部署与访问权限排查指南

Qwen3-VL:30B企业级部署：Clawdbot配置多租户隔离、模型访问权限分级、审计日志留存

如何使用萤石开放平台直播大屏？功能与应用全解析

ESP32+MQTT阿里云+手机APP，实现智能家居控制

GME-Qwen2-VL-2B-Instruct部署详解：Windows系统本地开发环境配置教程

成都装饰公司优选:别墅装修口碑、质量与适配性最新解析 - 深度智识库

国产开源大模型2026格局：Qwen3.5与DeepSeek V3.2深度解析

OpenClaw高阶用法：Qwen3.5-4B-Claude多技能组合调度

2026年西安权际海外移民服务排名，解析权际移民的服务质量保障与特色 - myqiye

11.2版本：使用Flow3D进行高能量密度下选区激光熔化(SLM)数值模拟与计算流体动力学(...

小白也能轻松上手：cv_unet_image-colorization本地AI上色工具快速入门指南

分期乐购物额度回收避坑指南：3 个标准筛掉 99% 的不靠谱渠道 - 团团收购物卡回收

2026年如何选择移民公司，权际移民服务特色与口碑参考 - mypinpai

Z-Image-Turbo-rinaiqiao-huiyewunv 前端交互实战：用Vue3构建可视化AI应用界面

3步掌握神经网络可视化：PlotNeuralNet专业绘图实战指南

fern-wifi-cracker使用教程

2026年揭秘做IBMS系统打破供应商专有生态垄断的企业 - 工业品牌热点

焦耳小偷电路：高效升压转换设计解析

AlmaLinux 8下RealVNC自定义分辨率配置全攻略

2026六大CRM系统：从线索到报表能力拆解与选型参考 - jfjfkk-

论文合规双检新标杆：paperzz 查重系统，一站式破解本科毕业双重检测焦虑

5大维度解锁专业音效：开源均衡器深度优化指南