当前位置：首页 > news >正文

Nunchaku FLUX.1-dev部署案例：边缘设备Jetson Orin Nano适配

news 2026/4/23 9:56:45

Nunchaku FLUX.1-dev部署案例：边缘设备Jetson Orin Nano适配

1. 前言：当顶级文生图模型遇见边缘计算

如果你玩过AI绘画，肯定听说过FLUX.1-dev的大名。这个模型在图像生成质量上，可以说是目前的第一梯队，细节丰富，风格多样。但它的“胃口”也很大，通常需要高端显卡和充足的显存才能流畅运行。

那么问题来了：如果我想在一台小巧、低功耗的边缘设备上，比如英伟达的Jetson Orin Nano上运行它，可能吗？

答案是肯定的。这就要提到我们今天的主角——Nunchaku FLUX.1-dev。它不是一个新的模型，而是对原版FLUX.1-dev进行了一系列深度优化和量化压缩的版本。通过Nunchaku团队的“瘦身”技术，这个庞然大物得以在资源受限的边缘设备上“安家落户”。

本文将带你一步步完成在Jetson Orin Nano上，通过ComfyUI部署和运行Nunchaku FLUX.1-dev模型的完整过程。你会发现，在边缘设备上跑出高质量的AI生成图片，并没有想象中那么遥不可及。

2. 环境准备：为Jetson Orin Nano打好基础

在开始安装模型之前，我们需要确保Jetson Orin Nano的系统环境已经就绪。边缘设备的资源有限，每一步的配置都至关重要。

2.1 硬件与系统确认

首先，确认你的设备是Jetson Orin Nano 8GB或16GB版本。虽然4GB版本理论上也能尝试，但显存压力会非常大，体验可能不佳。本文以Jetson Orin Nano 16GB为例进行演示。

确保你的设备已经刷写了最新的JetPack SDK（建议5.1.2或以上版本），并完成了基础的系统更新：

sudo apt update sudo apt upgrade -y

2.2 软件环境配置

Jetson平台基于ARM架构，一些Python包的安装可能与x86平台不同。我们需要配置好Python和关键依赖。

创建并激活Python虚拟环境（强烈推荐，避免污染系统环境）：
```
sudo apt install python3.10-venv -y python3 -m venv comfyui_env source comfyui_env/bin/activate
```
激活后，你的命令行提示符前会出现(comfyui_env)字样。
安装PyTorch for Jetson：这是最关键的一步。不要直接用pip install torch，因为那会安装x86版本。我们需要英伟达官方为Jetson预编译的版本。根据你的JetPack版本，从NVIDIA官方论坛找到对应的wheel文件链接并安装。例如，对于JetPack 5.1.2：
```
wget https://developer.download.nvidia.com/compute/redist/jp/v512/pytorch/torch-2.1.0a0+41361538.nv23.06-cp310-cp310-linux_aarch64.whl pip install torch-2.1.0a0+41361538.nv23.06-cp310-cp310-linux_aarch64.whl
```
安装后，可以运行python3 -c “import torch; print(torch.__version__); print(torch.cuda.is_available())”来验证PyTorch和CUDA是否可用。

安装基础工具：

sudo apt install git curl -y pip install --upgrade pip pip install huggingface_hub

环境准备好后，我们就可以开始安装ComfyUI和Nunchaku插件了。

3. Nunchaku ComfyUI插件安装部署

ComfyUI是一个基于节点工作流的AI图像生成工具，以其灵活性和低资源消耗著称，非常适合在Jetson这类设备上运行。而Nunchaku插件则是我们运行优化版FLUX模型的关键。

3.1 安装ComfyUI本体

在Jetson上，我们采用手动安装的方式，以便更好地控制过程。

# 1. 克隆ComfyUI仓库 git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI # 2. 安装Python依赖 # 注意：Jetson上安装可能较慢，耐心等待 pip install -r requirements.txt # 3. (可选但推荐) 安装ComfyUI Manager，便于后续管理自定义节点 cd custom_nodes git clone https://github.com/ltdrdata/ComfyUI-Manager.git cd ..

3.2 安装Nunchaku插件

Nunchaku插件包含了运行优化版FLUX模型所需的所有自定义节点。

# 进入custom_nodes目录 cd custom_nodes # 克隆Nunchaku插件 git clone https://github.com/mit-han-lab/ComfyUI-nunchaku nunchaku_nodes # 返回ComfyUI根目录 cd ..

3.3 安装Nunchaku后端

插件安装好后，还需要安装其Python后端库。从v0.3.2版本开始，这变得非常简单。

首先，确保你在ComfyUI的根目录。
在文件管理器中，进入custom_nodes/nunchaku_nodes目录。
找到名为install_wheel.json的文件。
回到ComfyUI网页端（稍后启动），在界面中通常会有一个“安装节点依赖”或类似按钮，点击并选择上传这个json文件，即可一键安装所有后端依赖。

手动安装备选方案：如果自动安装失败，你也可以尝试在虚拟环境中直接安装：

pip install nunchaku

但请注意，确保安装的版本与插件兼容。

4. Nunchaku FLUX.1-dev模型使用准备

插件就位后，接下来就是准备模型文件。对于Jetson Orin Nano，模型版本的选择直接决定了能否成功运行。

4.1 配置工作流

Nunchaku插件自带了一些示例工作流，我们需要将它们复制到ComfyUI能识别的位置。

# 在ComfyUI根目录下执行 mkdir -p user/default/example_workflows cp custom_nodes/nunchaku_nodes/example_workflows/* user/default/example_workflows/

这样，启动ComfyUI后，你就可以在加载工作流的菜单里找到这些示例。

4.2 下载模型文件（关键步骤）

这是最核心的部分。原版FLUX.1-dev模型体积巨大，Jetson Orin Nano根本无法承载。Nunchaku提供了多种量化版本，我们必须选择最适合边缘设备的那一个。

对于Jetson Orin Nano，唯一可行的选择是：INT4量化版模型。FP8或FP16版本对显存的要求仍然远超Orin Nano的能力。

4.2.1 下载基础FLUX模型组件

这些是FLUX模型架构必需的部分，包括文本编码器和VAE（变分自编码器）。

# 创建模型目录（如果不存在） mkdir -p models/text_encoders mkdir -p models/vae # 下载文本编码器 (CLIP 和 T5) # 注意：huggingface-cli可能需要登录，请提前准备好token或使用镜像源 huggingface-cli download comfyanonymous/flux_text_encoders clip_l.safetensors --local-dir models/text_encoders huggingface-cli download comfyanonymous/flux_text_encoders t5xxl_fp16.safetensors --local-dir models/vae # 下载VAE huggingface-cli download black-forest-labs/FLUX.1-schnell ae.safetensors --local-dir models/vae

Jetson提示：这些文件仍然不小，下载过程可能因网络问题中断。可以考虑在PC端下载后，通过SCP等工具传输到Jetson上。

4.2.2 下载核心：Nunchaku FLUX.1-dev INT4 模型

这是经过深度压缩的主模型，也是能在Jetson上运行的关键。

# 创建unet目录 mkdir -p models/unet # 下载INT4量化版主模型 # 模型名：svdq-int4_r32-flux.1-dev.safetensors huggingface-cli download nunchaku-tech/nunchaku-flux.1-dev svdq-int4_r32-flux.1-dev.safetensors --local-dir models/unet/

下载完成后，你的models/unet/目录下应该有一个名为svdq-int4_r32-flux.1-dev.safetensors的文件。

4.2.3 (可选) 下载LoRA模型

LoRA（Low-Rank Adaptation）是一种轻量化的模型微调方法，可以给生成图片附加特定的风格或主题。对于显存紧张的Jetson，可以暂时跳过，先确保主模型能运行。

mkdir -p models/loras # 例如，下载一个通用增强LoRA # huggingface-cli download <lora_repo_id> <lora_file.safetensors> --local-dir models/loras

5. 启动ComfyUI并运行FLUX.1-dev文生图

万事俱备，只欠东风。让我们启动ComfyUI，看看在Jetson Orin Nano上生成第一张图片。

5.1 启动ComfyUI服务

在ComfyUI根目录下，使用Python直接启动。为了在Jetson上获得更好性能，可以添加一些参数。

# 确保在虚拟环境中 source comfyui_env/bin/activate cd ~/ComfyUI # 切换到你的ComfyUI目录 # 启动ComfyUI，指定监听所有IP（方便同网络其他设备访问），并禁用一些可能耗资源的特性 python main.py --listen 0.0.0.0 --disable-ipex

启动成功后，终端会输出一个本地地址，通常是http://0.0.0.0:8188。

5.2 加载Nunchaku FLUX.1-dev工作流

在你的电脑或手机浏览器中，输入Jetson设备的IP地址和端口，例如http://192.168.1.xxx:8188，打开ComfyUI网页界面。
点击右侧的“Load”按钮，在弹出的对话框中，切换到“example_workflows”目录。
选择我们之前拷贝过来的nunchaku-flux.1-dev.json工作流文件并加载。

加载后，你会看到一个预设好的节点工作流。这个工作流已经配置好了INT4模型、文本编码器、VAE和基本的采样流程。

5.3 文生图参数设置与生成

现在到了最激动人心的环节：生成图片。

输入提示词：在工作流中找到标有“Positive Prompt”的节点框。FLUX模型对英文提示词响应更好。输入你的描述，例如：A cute robot cat, sitting on a mossy stone in a neon-lit cyberpunk alley, detailed, 4k。
关键参数调整（针对Jetson优化）：
- 分辨率（Width/Height）：这是影响显存占用的最大因素。对于Jetson Orin Nano，强烈建议从512x512或256x256开始尝试。1024x1024几乎肯定会爆显存。
- 推理步数（Steps）：步数越多，细节越好，耗时越长。可以从20步开始。工作流中可能集成了FLUX.1-Turbo-AlphaLoRA，如果启用，步数可以降低（如4-8步），生成速度会快很多。
- 批次大小（Batch Size）：保持为1。Jetson没有能力同时生成多张图片。
点击生成：点击界面上的“Queue Prompt”按钮。终端会开始显示推理过程。

重要提示：第一次运行会非常慢，因为需要将模型加载到显存并编译。在Jetson Orin Nano 16GB上，加载INT4模型可能需要1-2分钟，生成一张512x512的图片可能需要30秒到2分钟，具体取决于步数和提示词复杂度。

请保持耐心，如果遇到显存不足的错误，请尝试：

降低分辨率。
减少推理步数。
确认加载的是INT4模型，而不是其他版本。
关闭ComfyUI中所有不必要的其他自定义节点。

6. 总结与关键注意事项

成功在Jetson Orin Nano上运行Nunchaku FLUX.1-dev，标志着高性能文生图AI向更广泛的边缘应用场景迈出了坚实的一步。回顾整个过程，有几个关键点需要牢记：

模型版本是生命线：对于Jetson Orin Nano（8GB/16GB），必须使用INT4量化版的Nunchaku FLUX.1-dev模型（svdq-int4_r32-flux.1-dev.safetensors）。FP8或更高精度的版本显存需求远超设备上限。
分辨率是首要调节阀：显存是最大的瓶颈。始终从低分辨率（如256或512）开始测试，成功后再谨慎上调。高分辨率（1024+）在边缘设备上目前不现实。
利用LoRA加速：如果工作流中包含了FLUX.1-Turbo-Alpha这类加速LoRA，务必启用。它能大幅减少所需的推理步数，从而显著提升生成速度，这对计算能力有限的Jetson至关重要。
管理好期望值：在边缘设备上运行，速度无法与高端台式机GPU相比。它的价值在于离线、低功耗、可集成。想象一下，在一个嵌入式艺术装置、一个机器人或一个离线内容生成设备中，它就能发挥作用。
工作流稳定性：如果加载工作流时提示缺少节点，通常是因为Nunchaku插件依赖的其他自定义节点（如ComfyUI-Impact-Pack等）没有安装。可以通过ComfyUI Manager进行搜索安装。