当前位置：首页 > news >正文

1.6万美元复现SOTA！LLaVA-OneVision-1.5开源生态颠覆多模态训练范式

news 2026/7/2 9:17:03

导语

【免费下载链接】LLaVA-One-Vision-1.5-Mid-Training-85M项目地址: https://ai.gitcode.com/hf_mirrors/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

2025年10月，LMMS Lab发布的LLaVA-OneVision-1.5多模态大模型正式开源，以8500万预训练数据、1.6万美元训练成本，在27项基准测试中全面超越Qwen2.5-VL，标志着多模态AI从"黑箱"走向全栈透明化。

行业现状：开源多模态的"菜谱保密"困局

当前多模态AI领域正陷入奇特的发展悖论：头部模型性能持续突破，但开源生态却面临"半透明化"困局。以Qwen2.5-VL、InternVL3.5为代表的商业模型虽开放权重，却对训练数据清洗规则、混合比例、采样策略等核心细节语焉不详。这种"菜谱保密"现象导致社区无法验证结果，更难以在此基础上迭代创新。

行业调研显示，当前多模态模型的性能差异中，数据工程因素占比已达63%，远超架构设计的影响。LLaVA系列从1.0到OneVision的进化路径清晰揭示：模型能力的边界已从算法创新转向训练范式的可复现性。

核心突破：三大创新重构训练流程

1. 8500万概念平衡数据集：开源界的"百科全书"

LLaVA-OneVision-1.5-Mid-Training数据集堪称多模态训练的"百科全书"，涵盖ImageNet-21k、LAIONCN、DataComp-1B等11个数据源，其中2000万条中文数据与6500万条英文数据形成精准配比。

如上图所示，该数据集通过创新的"概念均衡"采样策略，利用MetaCLIP编码器将图像与50万个概念词条匹配，确保罕见概念的图片获得更高采样权重。这种方法解决了传统数据集偏向常见物体的缺陷，使模型在罕见概念识别场景准确率提升显著。

2. 三阶段高效训练框架：1.6万美元实现SOTA

不同于复杂的多阶段训练范式，该模型仅通过"语言-图像对齐→高质量知识学习→视觉指令微调"三阶段流程，就在128卡A800 GPU上实现3.7天完成8500万样本训练。

关键创新在于中间训练阶段(mid-training)的数据规模扩展，配合离线并行数据打包技术，将训练效率提升11倍，使总预算控制在1.6万美元内——仅为同类模型的1/5成本。

3. RICE-ViT视觉编码器：文档理解的"超级眼睛"

采用最新区域感知聚类判别模型RICE-ViT作为"视觉之眼"，相比传统CLIP编码器在OCR任务上提升6.3%，在文档理解任务中超越SigLIPv2达4.4%。其原生支持可变分辨率输入的特性，避免了Qwen2-VL等模型需要分辨率特定微调的麻烦，配合二维旋转位置编码(2D RoPE)，实现从336px到1536px分辨率的无缝处理。

图中展示了LLaVA-OneVision的网络架构，左侧为当前模型实例，右侧是扩展支持单图像、多图像、视频等视觉信号的通用架构，包含Qwen-2语言模型、SigLIP视觉编码器等组件，实现视觉-语言任务迁移。这一架构设计是LLaVA-OneVision-1.5能够处理多模态数据的基础，为8500万概念平衡数据集的高效利用提供了技术支撑。

性能验证：全面超越Qwen2.5-VL的实证

LLaVA-OneVision-1.5展现出惊人的"性价比"：在标准评测体系中，8B模型在MathVista数学推理任务中达68.9分（Qwen2.5-VL-7B为67.9分），DocVQA文档理解任务达95.0分；4B轻量版在全部27项测试中超越Qwen2.5-VL-3B，尤其在AI2D图表推理任务中领先12.3个百分点。

图片包含雷达图、General VQA Benchmarks柱状图及OCR & Chart Benchmarks柱状图，展示LLaVa-OV-1.5-8B模型在多模态基准测试（如ScienceQA、MMBench、OCR等）中的性能表现，并与Qwen2.5-VL-7B、LLaVA-OV-7B模型对比。从图中可以看出LLaVA-OneVision-1.5在多数任务中优势显著，尤其在文档理解和数学推理等复杂任务上表现突出。

行业应用：从实验室到产业落地

LLaVA-OneVision-1.5已在多个行业场景展现出实用价值：金融文档处理领域，某股份制银行采用该模型构建的票据识别系统，将支票要素提取准确率从89%提升至96.4%，处理效率提高3倍；医疗影像辅助诊断中，肺结节检测召回率达91.7%，接近专业放射科医师水平；工业质检场景，某汽车零部件厂商将该模型部署于生产线视觉检测系统，螺栓缺失识别准确率达99.2%，误检率降低62%。

快速上手：从零开始的部署指南

环境准备

# 克隆仓库 git clone https://gitcode.com/hf_mirrors/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M # 创建虚拟环境 conda create -n llava-ov15 python=3.10 -y conda activate llava-ov15 # 安装依赖 pip install -r requirements.txt

模型推理示例

from llava.model.builder import load_pretrained_model from llava.utils import disable_torch_init from llava.eval.run_llava import eval_model disable_torch_init() model_path = "lmms-lab/llava-onevision-1.5-8b" tokenizer, model, image_processor, context_len = load_pretrained_model( model_path, None, "llava-onevision-1.5-8b" ) image_file = "example.jpg" prompt = "描述这张图片中的物体及其空间关系" args = type('Args', (), { "model_path": model_path, "image_file": image_file, "prompt": prompt, "temperature": 0.2, "top_p": 0.7, "num_beams": 1, })() eval_model(args, model, tokenizer, image_processor)