当前位置：首页 > news >正文

如何从零开始训练BAGEL多模态模型：完整实战指南

news 2026/4/14 6:46:55

如何从零开始训练BAGEL多模态模型：完整实战指南

【免费下载链接】BagelOpen-source unified multimodal model项目地址: https://gitcode.com/gh_mirrors/bagel7/Bagel

BAGEL是一款开源的统一多模态模型，它能够同时处理图像理解和生成任务，在视觉问答、文本到图像生成、图像编辑等多种场景中表现出色。本教程将带你从零开始，完成BAGEL模型的环境搭建、数据准备和训练过程，帮助你快速掌握这一强大工具的使用方法。

BAGEL模型简介

BAGEL采用了混合Transformer专家（Mixture-of-Transformer-Experts, MoT）架构，通过两个独立的编码器分别捕捉图像的像素级和语义级特征。这种设计使模型能够高效处理丰富多样的多模态信息，在标准多模态理解排行榜上超越了Qwen2.5-VL和InternVL-2.5等开源模型，同时在文本到图像生成质量上可与SD3等专业生成器相媲美。

BAGEL模型架构图，展示了其多模态自注意力机制和双专家系统

BAGEL的核心优势在于：

统一架构：单个模型支持理解和生成任务
多模态能力：同时处理文本、图像、视频等多种数据类型
高性能：在多个基准测试中超越现有开源模型
灵活性：支持图像编辑、多视图合成、世界导航等高级功能

环境准备

要开始训练BAGEL模型，首先需要搭建合适的开发环境。以下是详细的步骤：

1. 克隆代码仓库

git clone https://gitcode.com/gh_mirrors/bagel7/Bagel cd Bagel

2. 创建并激活虚拟环境

conda create -n bagel python=3.10 -y conda activate bagel

3. 安装依赖包

BAGEL的依赖项在requirements.txt文件中列出，包括PyTorch、Transformers、Hugging Face Hub等关键库：

pip install -r requirements.txt pip install flash_attn==2.5.8 --no-build-isolation

主要依赖项版本：

torch==2.5.1
transformers==4.49.0
huggingface_hub==0.29.1
accelerate>=0.34.0

数据准备

BAGEL支持多种任务的数据格式，包括文本到图像（T2I）、图像编辑和视觉语言模型（VLM）任务。以下是数据准备的详细步骤：

1. 下载示例数据集

wget -O bagel_example.zip \ https://lf3-static.bytednsdoc.com/obj/eden-cn/nuhojubrps/bagel_example.zip unzip bagel_example.zip -d /data

2. 数据集目录结构

下载的示例数据集包含以下目录结构：

bagel_example ├── t2i/ # 文本到图像数据（parquet格式） ├── editing/ # 图像编辑数据（parquet格式） │ ├── seedxedit_multi/ │ └── parquet_info/ └── vlm/ ├── images/ # JPEG/PNG图像文件 └── llava_ov_si.jsonl # 视觉语言对话数据

3. 配置数据集路径

编辑data/dataset_info.py文件，将所有your_data_path占位符替换为实际的数据路径。如果需要添加自定义数据，可以扩展DATASET_INFO字典来混合额外的parquet分片或JSONL文件。

模型训练

BAGEL的训练过程包括预训练和微调两个阶段。以下是详细的训练步骤：

1. 预训练

使用以下命令启动预训练过程：

torchrun \ --nnodes=$num_nodes \ --node_rank=$node_rank \ --nproc_per_node=8 \ --master_addr=$master_addr \ --master_port=$master_port \ train/pretrain_unified_navit.py \ --dataset_config_file ./data/configs/example.yaml \ --llm_path $llm_path \ --vae_path $vae_path \ --vit_path $vit_path \ --layer_module Qwen2MoTDecoderLayer \ --use_flex True \ --resume_from $resume_from \ --results_dir $output_path \ --checkpoint_dir $ckpt_path \ --max_latent_size 64 # 低分辨率预训练使用32

2. 微调

预训练完成后，进行微调以适应特定任务：

torchrun \ --nnodes=$num_nodes \ --node_rank=$node_rank \ --nproc_per_node=8 \ --master_addr=$master_addr \ --master_port=$master_port \ train/pretrain_unified_navit.py \ --dataset_config_file ./data/configs/example.yaml \ --model_path $model_path \ --layer_module Qwen2MoTDecoderLayer \ --max_latent_size 64 \ --resume-from $model_path \ --finetune_from_hf True \ --auto_resume True \ --resume-model-only True \ --finetune-from-ema True \ --log_every 1 \ --lr 2e-5 \ --num_worker 1 \ --expected_num_tokens 10240 \ --max_num_tokens 11520 \ --max_num_tokens_per_sample 10240

3. 关键训练参数

训练BAGEL时需要注意以下关键参数：

参数	默认值	描述
`max_latent_size`	32	最大潜在网格大小，定义可生成的最高分辨率
`llm_path`	`hf/Qwen2.5-0.5B-Instruct`	语言模型 backbone
`vae_path`	`flux/vae/ae.safetensors`	用于潜在扩散的预训练VAE检查点
`vit_path`	`hf/siglip-so400m-14-980-flash-attn2-navit`	用于图像理解的SigLIP ViT
`lr`	1e-4	预热后的峰值学习率
`total_steps`	500_000	优化器运行的总步数
`save_every`	2000	检查点保存频率（步数）