当前位置: 首页 > news >正文

小白也能学会!本地部署大模型全攻略:从CUDA配置到ChatGLM-6B运行

本文详细介绍了在Ubuntu 18.04环境下部署大模型的全流程,包括GPU环境配置(CUDA和cuDNN安装)、ChatGLM-6B模型的下载与部署。文章提供了实用的避坑建议、环境检查命令、量化版本选择指南以及详细的部署步骤,帮助读者快速搭建自己的AI对话服务,特别适合初学者和希望避开环境配置坑的开发者。


想要在本地部署大模型,却总在环境配置这一步卡住?显卡驱动不兼容、CUDA版本对不上、依赖库报错…这些“拦路虎”确实让人头大。

本文基于 Ubuntu 18.04 环境,梳理了从GPU 环境配置ChatGLM-6B 模型运行的全流程。希望能帮你绕过常见的坑,快速搭建属于自己的 AI 对话服务。

1 GPU环境配置:安装CUDA和cuDNN

本节是部署的基础。如果你是第一次部署大模型,请仔细阅读;若已有经验,可快速检查各组件版本是否匹配。

目标:在 Ubuntu 18.04 上配置 CUDA 11.3 与 cuDNN 8.8.0

1.1 为什么要装这些?

大模型的训练与推理常依赖PyTorch等工具,其正常运行需要GPU驱动、CUDA和cuDNN三者兼容协作。

  • GPU驱动:安装在物理机,用于管理和控制GPU。
  • CUDA:NVIDIA推出的并行计算平台,让开发者能利用GPU进行高效并行计算。
  • cuDNN:基于CUDA的深度神经网络加速库,为深度学习框架提供高性能支持。
  • PyTorch:流行的深度学习框架,依赖上述组件实现GPU加速。

避坑建议

  • GPU 驱动必须安装在物理机上。
  • CUDA 和 cuDNN 可以选择装在物理机,也可以封装在 Docker 容器里(推荐容器化,环境隔离更干净)。
  • 为更好适配其他模型环境,建议优先选择较高版本。

1.2 环境检查命令

  • 检查显卡驱动和支持的CUDA版本:nvidia-smi
  • 检查容器是否安装CUDA工具:nvcc -V
  • 检查显存大小:nvidia-smi --query-gpu=memory.total --format=csv
  • 检查磁盘空间:df -h,具体分区空间:df -h /dev/sdal
  • 查看 torch 可否支持当前 GPU 驱动:python -c "import torch; print(torch.cuda.is_available())"返回 Ture 表示可用,False 为不可用。

1.3 安装资源

具体的安装步骤较长,为节省篇幅,推荐参考以下优质教程:

  • 配置CUDA和cuDNN的完整指南:https://banxian-w.com/article/2023/3/21/2528.html
  • CUDA 11.2 和 cuDNN 8.4.0 安装与验证教程:https://blog.csdn.net/tangjiahao10/article/details/125227005

官方版本对照表

  • PyTorch、CUDA与Python版本匹配查询:https://download.pytorch.org/whl/torch_stable.html
  • NVIDA 驱动与CUDA版本对应关系官方文档: https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

2 实战部署:本地运行ChatGLM-6B

环境搭好了, 接下来就是部署模型了。
ChatGLM-6B 是国内开源的中英双语大语言模型,它最大的亮点是轻量化,家用级显卡也能跑得动,且中文效果出色。

3 下载模型

为了适应不同的显存,模型提供了量化版本。量化简单说就是“压缩”,INT4 版本虽然压缩狠,但显存占用极低,且效果损失在可接受范围内。

量化等级最低 GPU 显存(推理)最低 GPU 显存(高效参数微调)
FP16(无量化)13 GB14 GB
INT88 GB9 GB
INT46 GB7 GB

3.1 下载方式模型权重

方法一:Git 直接拉取(推荐)
如果你网络环境较好,直接从 Hugging Face 拉取 INT4 量化版:

  • git clone https://huggingface.co/THUDM/chatglm-6b-int4

    方法二:手动下载(网速慢看这里)
    如果 Git 拉取经常断开,建议去清华云盘下载压缩包,再上传到服务器:
    清华大学云盘下载地址

3.2 部署步骤

  1. 克隆项目仓库
git clone https://github.com/THUDM/ChatGLM-6B cd ChatGLM-6B
  1. 放置模型文件
    在刚才 clone 下来的 ChatGLM-6B 文件夹里,新建一个 model 文件夹,把下载好的模型权重文件全都放进去。
  2. 安装依赖(在容器或虚拟环境内执行):
    建议在 Python 虚拟环境或 Conda 环境中执行,避免污染系统环境:
pip install -r requirements.txt
  1. 修改加载路径

打开 web_demo.py 文件,我们需要做两处微调:

  • 修改路径

    找到加载模型的地方,把路径改为你本地的 model 目录路径。

  • 开放端口

    将最后一行的 server_name 设置为 ‘0.0.0.0’。

  • 为什么要改? 默认是 127.0.0.1,只能本机访问。改成 0.0.0.0 后,你才能通过浏览器访问服务器的 IP 地址来使用网页版。

具体修改见下图:

  1. 启动服务
python web_demo.py

完成以上步骤后,如果看到类似 Running on local URL: http://0.0.0.0:7860 的提示,即可通过浏览器访问本地ChatGLM服务,进行对话测试。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线


03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

http://www.jsqmd.com/news/299419/

相关文章:

  • 小白也能学会!vLLM本地部署大模型完整教程
  • 一文读懂AI Agent:大模型时代的智能体技术与应用场景全解析,面了字节大模型岗
  • 深入理解Agentic RAG:从检索增强到智能体驱动的技术演进(建议收藏)
  • 深入理解LLM三大核心技术:Function Calling、MCP与A2A实战指南
  • 大模型构建知识图谱的挑战与解决方案:判别式模型的优势
  • 零基础转行AI大模型:我的自学经验分享(程序员必备,建议收藏)___转行人工智能大模型
  • 企业级大模型落地宝典:精准选模+高效开发+持续优化(建议收藏)
  • 2026/1/25 今天学的day12的lecode1047和150
  • python第二次作业
  • NaViT:解决图像大小问题的革命性大模型架构
  • 【2026最新】人工智能智能体协议详解,大模型开发者必学收藏指南
  • 程序员必看!阿里Qwen3-TTS开源:3秒克隆声音,低至97ms延迟,多模态语音合成全家桶
  • 开发AI Agent不用从零开始:3个版本实现从入门到工业级应用
  • openssl-libs-1.1.1f-4.p12.ky10.x86_64.rpm 安装指南 解决依赖与常见报错
  • 【AI大模型大厂面经】阿里一面,大模型SFT微调完全指南:从入门到精通,收藏必备!
  • 普通人意义感崩塌 = 内耗?
  • Java全栈开发面试实录:从基础到实战的全面考察
  • MATLAB数据分析,基于遗传算法,粒子群优化算法优化BP神经网络GA-BP和PSO-BP的数...
  • 文字快速转为PPT播放工具:高效演示文稿制作新选择
  • 手把手玩转西门子S7-200 Smart与施耐德ATV12的Modbus基情互动
  • C#工业触摸屏上位机源码:强大功能、多种通信方式、用户权限管理、多线程编程与WEB服务对接
  • 微网优化模型 多目标matlab 编程语言:matlab 方法:多目标粒子群mopso 内容摘要
  • 光伏并网逆变器设计方案,附有相关的matlab电路仿真文件,以及DSP的程序代码
  • Unix时间戳
  • 拒绝背锅!服务器卡顿CPU却空闲?一文揪出磁盘I/O这个“隐形杀手”
  • 彼得林奇对公司并购后文化整合成功因素的案例研究
  • React 组件状态(State)
  • 从零开始:Gitee 仓库创建与本地项目纳管全流程详解
  • 法律服务效率提升的架构创新:AI应用架构师详解法律AI智能体微服务设计
  • 并行计算: CUDA 12.9 (支持 GPU 加速), OpenMP (多核 CPU)