当前位置：首页 > news >正文

AI绘画神器Stable-Diffusion-3.5部署教程：老机器加显卡也能流畅运行

news 2026/5/12 20:53:21

AI绘画神器Stable-Diffusion-3.5部署教程：老机器加显卡也能流畅运行

想体验最新的AI绘画技术，但担心自己的电脑配置不够？别担心，今天我就来分享一个好消息：即使你的机器有点年头，只要加一张合适的显卡，就能流畅运行最新的Stable Diffusion 3.5。

我最近就在一台老机器上加了张4060 16G显卡，成功部署了SD 3.5，整个过程比想象中简单。这个版本最大的亮点是它经过了FP8量化优化，不仅图像质量比3.0版本有明显提升，运行速度也更快，最重要的是显存占用大幅降低。

下面我就把完整的部署过程分享给你，跟着步骤走，你也能在自己的机器上跑起这个AI绘画神器。

1. 环境准备：老机器也能跑新模型

很多人以为跑最新的AI模型需要顶配电脑，其实不然。Stable Diffusion 3.5经过优化后，对硬件的要求已经亲民了很多。

1.1 硬件要求与检查

先来看看你的机器需要满足什么条件：

最低配置建议：

显卡：NVIDIA显卡，显存8GB以上（推荐12GB+）
内存：16GB以上
存储：至少20GB可用空间
系统：Windows 10/11 64位

我的实际配置：

CPU：Intel i7-8700（2017年的老U）
内存：32GB DDR4
显卡：RTX 4060 16GB（新加的）
系统：Windows 11

如果你的机器比这个配置还老，也不用太担心。SD 3.5的FP8版本就是为降低硬件门槛设计的，8GB显存的显卡也能跑，只是速度会慢一些。

1.2 软件环境准备

在开始之前，确保你的系统已经安装了必要的运行环境：

Python环境：ComfyUI自带Python，不需要单独安装
显卡驱动：确保NVIDIA显卡驱动是最新版本
解压工具：需要7-Zip或类似工具来解压文件

如果你之前没接触过AI绘画工具，也不用担心依赖问题。ComfyUI的便携版已经把大部分依赖都打包好了，开箱即用。

2. 快速部署：三步搞定环境搭建

部署过程比想象中简单，主要就是下载、解压、配置三个步骤。

2.1 下载ComfyUI便携版

ComfyUI是目前最流行的Stable Diffusion可视化界面之一，它的节点式工作流设计虽然初看有点复杂，但用起来非常灵活。

下载地址：

官方GitHub发布页：https://github.com/comfyanonymous/ComfyUI/releases

选择哪个版本？

如果你用NVIDIA显卡：下载ComfyUI_windows_portable_nvidia.7z
如果你用AMD显卡：下载对应的AMD版本
如果你用CPU运行：下载CPU版本（速度会很慢，不推荐）

文件大小约2GB，下载完成后用7-Zip解压到你喜欢的目录。我把它放在D盘的AI_Tools文件夹里，路径不要太深，避免后续操作麻烦。

2.2 下载SD 3.5模型文件

这是最关键的一步。SD 3.5模型有几个不同的版本，我们需要根据显卡显存来选择。

模型版本说明：

模型版本	显存要求	生成速度	图像质量	适用场景
SD3.5 Large	12GB+	较慢	最高	追求最高画质
SD3.5 Large Turbo	8GB+	快	高	平衡速度与质量
SD3.5 Medium	6GB+	很快	良好	快速尝试、低显存

考虑到大多数人的显卡显存在8-12GB，我推荐下载SD3.5 Large Turbo版本，它在速度和质量之间取得了很好的平衡。

国内快速下载：直接从魔塔社区下载，速度比Hugging Face快很多： https://www.modelscope.cn/models/AI-ModelScope/stable-diffusion-3.5-large

需要下载的文件：

主模型文件（必须）：
- sd3.5_large_turbo.safetensors- 放在ComfyUI\models\checkpoints文件夹
CLIP文本编码器（必须）：
- clip_g.safetensors
- clip_l.safetensors
- t5xxl_fp8_e4m3fn.safetensors
- 这三个文件放在ComfyUI\models\clip文件夹
工作流配置文件（可选但推荐）：
- SD3.5L_Turbo_example_workflow.json- 启动ComfyUI后拖入界面使用

文件存放位置示意图：

ComfyUI_windows_portable/ ├── ComfyUI/ │ ├── models/ │ │ ├── checkpoints/ │ │ │ └── sd3.5_large_turbo.safetensors │ │ └── clip/ │ │ ├── clip_g.safetensors │ │ ├── clip_l.safetensors │ │ └── t5xxl_fp8_e4m3fn.safetensors │ └── ... └── run_nvidia_gpu.bat

2.3 启动ComfyUI

文件准备好后，启动就很简单了：

进入解压后的ComfyUI目录
双击run_nvidia_gpu.bat（如果你下载的是NVIDIA版本）
等待命令行窗口显示启动信息
浏览器会自动打开http://127.0.0.1:8188/

如果浏览器没有自动打开，你可以手动在浏览器地址栏输入上面的地址。

第一次启动可能会慢一些，因为要加载模型和初始化环境。我的老机器（i7-8700 + RTX 4060）第一次启动用了大约2分钟。

3. 首次运行：从零生成第一张AI图片

ComfyUI的界面初看可能有点复杂，但跟着步骤走，生成第一张图片其实很简单。

3.1 加载工作流配置

工作流配置文件相当于一个"配方"，告诉ComfyUI如何组合各个模块来生成图片。

加载方法：

确保ComfyUI已经在浏览器中打开
找到下载的SD3.5L_Turbo_example_workflow.json文件
直接拖拽到ComfyUI的浏览器界面中

加载成功后，你会看到界面上出现了很多连接在一起的节点。不要被吓到，我们只需要关注几个关键节点。

3.2 配置模型文件

工作流加载后，需要告诉它我们模型文件的位置：

找到CLIP文本编码器节点：界面上会有三个CLIP Loader节点
分别配置三个CLIP模型：
- 点击第一个CLIP Loader，在右侧面板选择clip_g.safetensors
- 点击第二个CLIP Loader，选择clip_l.safetensors
- 点击第三个CLIP Loader，选择t5xxl_fp8_e4m3fn.safetensors
检查模型加载节点：
- 找到"Load Checkpoint"节点
- 确保它指向sd3.5_large_turbo.safetensors

如果一切配置正确，节点的连接线应该是完整的，没有断开的地方。

3.3 输入提示词并生成

现在到了最有趣的部分——让AI根据你的描述生成图片。

在哪里输入提示词：

找到"CLIP文本编码"节点（通常标有"CLIP Text Encode (Prompt)"）
在右侧的文本框中输入你的描述

提示词写作技巧：

主体描述：什么人/物在做什么
环境描述：在什么地方，什么时间，什么天气
风格描述：什么画风，什么艺术家风格
质量描述：高清，细节丰富，专业摄影

示例提示词：

一个穿着汉服的女孩在樱花树下弹古筝，阳光透过花瓣洒在她身上，唯美的中国风插画，细节丰富，4K高清

输入提示词后，点击界面右上角的"运行"按钮，等待生成完成。

我的生成时间参考：

第一次生成：约45秒（需要编译和缓存）
后续生成：约15-20秒（512x512分辨率）
高清图生成：约30-40秒（1024x1024分辨率）

生成完成后，图片会显示在预览区域。右键点击图片可以选择保存到本地。

4. 性能优化：让老机器跑得更快

如果你觉得生成速度还不够快，或者遇到显存不足的问题，可以试试下面这些优化方法。

4.1 显存优化设置

ComfyUI提供了一些显存优化选项，可以在设置中调整：

点击界面上的"设置"按钮（齿轮图标）
找到"性能"或"Performance"选项卡
调整以下设置：

推荐设置（8-12GB显存）：

VRAM模式：选择"平衡"或"低VRAM"
启用CPU卸载：勾选（将部分计算转移到CPU）
图片缓存大小：设置为1024或2048

高级设置（16GB+显存）：

VRAM模式：选择"高VRAM"
启用xFormers：勾选（加速注意力计算）
启用确定性算法：取消勾选（小幅提升速度）

4.2 生成参数调整

调整生成参数也能显著影响速度和显存占用：

分辨率设置：

快速尝试：512x512像素
平衡选择：768x768像素
高质量输出：1024x1024像素

采样步数：

SD3.5 Turbo推荐：20-30步
可以先用20步测试，效果满意后再增加到30步

批处理大小：

单张生成：batch_size=1
多张同时生成：根据显存调整（8GB显存建议batch_size=1）

4.3 实际性能对比

我在自己的老机器上做了个简单测试：

配置	512x512生成时间	1024x1024生成时间	显存占用
SD3.5 Large	2-4分钟	5-8分钟	14-16GB
SD3.5 Large Turbo	15-20秒	30-40秒	8-10GB
SD3.5 Medium	8-12秒	20-25秒	6-8GB

可以看到，Turbo版本在几乎不损失画质的情况下，速度提升了8-10倍，显存占用也大幅降低。这就是为什么我推荐大多数人使用Turbo版本。

5. 常见问题与解决

部署过程中可能会遇到一些问题，这里整理了一些常见问题的解决方法。

5.1 启动问题

问题：双击bat文件后闪退

原因：缺少运行库或路径问题
解决：
1. 以管理员身份运行
2. 检查路径是否包含中文或特殊字符
3. 安装Visual C++ Redistributable

问题：浏览器打不开localhost:8188

原因：端口被占用或防火墙阻止
解决：
1. 检查是否有其他程序占用8188端口
2. 在防火墙中允许ComfyUI
3. 尝试访问http://127.0.0.1:8188/而不是localhost

5.2 模型加载问题

问题：模型加载失败或报错

原因：模型文件损坏或路径错误
解决：
1. 重新下载模型文件
2. 检查文件是否放在正确的文件夹
3. 确保文件名完全一致（包括大小写）

问题：CLIP模型找不到

原因：CLIP模型文件缺失或路径错误
解决：
1. 确认三个CLIP文件都已下载
2. 放在ComfyUI\models\clip文件夹
3. 在工作流中重新选择文件

5.3 生成问题

问题：生成速度很慢

原因：设置不当或硬件限制
解决：
1. 使用Turbo版本而不是Large版本
2. 降低分辨率和采样步数
3. 在设置中启用性能优化选项

问题：图片质量不佳

原因：提示词不够详细或参数设置问题
解决：
1. 使用更详细的提示词
2. 增加采样步数到25-30
3. 使用高质量负面提示词

6. 进阶技巧：提升使用体验

掌握了基础操作后，你可以尝试下面这些进阶技巧，让AI绘画体验更好。

6.1 工作流自定义

ComfyUI的强大之处在于可以自定义工作流。你可以：

保存常用工作流：配置好一套参数后，点击"Save"保存为json文件
导入社区工作流：从Civitai等社区下载别人分享的工作流
创建复杂流程：组合多个模型和处理器，实现高级效果

6.2 提示词工程

好的提示词能显著提升生成质量：

结构化提示词模板：

[主体描述], [动作描述], [环境描述], [风格描述], [质量描述], [负面提示]

示例：

一个穿着宇航服的猫在月球上喝咖啡，仰望地球，科幻插画风格，细节丰富，8K分辨率，专业摄影 负面提示：模糊，变形，多手指，多肢体，低质量

负面提示词常用词汇：

画面问题：模糊，变形，扭曲，失真
人体问题：多手指，多肢体，面部畸形
质量问题：低质量，像素化，水印，文字

6.3 批量生成与迭代

想要找到最满意的图片，可以：

批量生成：调整"batch_size"参数一次生成多张
种子控制：固定种子值可以生成相似的图片
迭代优化：基于喜欢的图片，微调提示词再次生成

7. 总结：老机器的新生命

通过这次在旧机器上部署Stable Diffusion 3.5的经历，我深刻感受到AI技术的普及速度。几年前需要数万元的工作站才能运行的模型，现在几千元的显卡就能流畅运行。

关键收获：

硬件门槛大幅降低：SD 3.5的FP8量化版本让8GB显存的显卡也能跑出不错的效果
部署过程简化：ComfyUI的便携版几乎做到了开箱即用
生成速度可接受：Turbo版本在普通显卡上也能在20秒内生成一张图片
画质依然出色：优化后的模型在速度和画质之间取得了很好的平衡

给不同用户的建议：

新手尝鲜：从SD3.5 Medium开始，对硬件要求最低
平衡选择：SD3.5 Large Turbo是最佳选择，兼顾速度和质量
追求极致：如果显存足够（16GB+），可以尝试SD3.5 Large

最后的小贴士：

第一次运行会比较慢，因为要编译和缓存，第二次就会快很多
多尝试不同的提示词，AI的理解能力有时候会给你惊喜
加入相关的社区，学习别人的经验和技巧

AI绘画不再是高端设备的专属，现在每个人都能在自己的电脑上体验创造的乐趣。希望这篇教程能帮助你顺利部署Stable Diffusion 3.5，开启你的AI绘画之旅。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/460651/

STM32低功耗定时器LPTIM：DMA、中断与寄存器时序全解析

开发者必看：Hunyuan HY-MT1.5-1.8B一键部署镜像使用指南

C++与深度学习：高性能模型推理引擎开发

5个零门槛实战技巧：用MediaCrawler高效采集多平台数据

从电动汽车到工业控制：不同场景下栅极驱动芯片的选型差异详解

STM32窗口看门狗WWDG原理与工程实践深度解析

FLUX.1-dev生产环境部署：长时间挂机生成稳定性压测报告分享

解锁QQNT插件扩展能力：LiteLoaderQQNT个性化定制指南

智能检测新体验：用实时手机检测-通用模型打造手机识别工具

新手必看：用星图AI训练PETRV2-BEV模型完整流程

基于WebSocket实现chatbot自动显示最新用户消息的架构设计与实战

IWDG与RTC协同设计：寄存器级配置、低功耗唤醒与故障自愈

Ostrakon-VL-8B与微信小程序结合：打造“拍照识万物”科普应用

Qwen2-VL-2B-Instruct惊艳效果：将流程图截图自动转换为Markdown文档

RMBG-2.0实战案例：为独立游戏开发者批量生成精灵图透明资源

BetterNCM-Installer：网易云音乐功能增强的全场景解决方案

从零开始部署开源医疗系统：HIS全流程实践指南

微信好友关系检测：智能化社交关系管理工具的技术实现与应用指南

KH Coder：智能文本分析效率工具全面解析

3步搞定APA第7版参考文献：让学术写作效率提升80%

AnotherRedisDesktopManager：让Redis管理效率提升80%的图形化工具

SenseVoice-small-ONNX部署案例：中小企业低成本多语种语音转写方案

告别复杂操作：Deepin Boot Maker让技术小白也能轻松制作启动盘

突破网盘限速壁垒：Online-disk-direct-link-download-assistant技术解析与实践指南

如何管理原神抽卡记录？genshin-wish-export让数据统计更高效

Nomic-Embed-Text-V2-MoE快速部署教程：10分钟搞定GPU环境与API服务

当公式成为演示障碍：LaTeX插件的突破性解决思路

微信数据解密工具：从原理到实战的完整指南

Nunchaku-FLUX.1-dev中文语义空间建模：CLIP文本编码器针对中文优化原理

HIS医疗信息系统：从架构设计到临床应用的全方位技术指南