当前位置：首页 > news >正文

InternVL(1~3.5版本)多模型大模型训练中的数据集构造总结

news 2026/5/12 16:28:41

InternVL基于互联网开源数据采集了6B数据，经过滤后一阶段用了5B数据，二阶段用了1B数据。SFT阶段，用了4M数据（二阶段的0.4%）。InternVL1.5与上一版本相比，扩大了训练数据集的纳入范围（尤其是关于ORC任务，进行了细粒度的划分），并且设计了翻译流程，补充中文语料训练数据的不足，同时针对测试任务针对性设计了SFT数据。

InternVL2基于1.5版本的数据集，二次进行扩充，同时构建了包含医疗领域的二阶段高质量训练数据。

InternVL2.5 引入了有条件地应用JPEG 压缩，图像分块控制，在总体的训练数据规模上，比v2模型多了近一倍，同时由于tille数量的变化，训练视觉token数提升的比例变得更大了。并提出了异常数据过滤.

InternVL3主要描述将语言预训练与多模态对齐训练整合于同一预训练阶段，混合输入多模态数据（图文、视频文本等）与大规模纯文本语料实现联合优化，同步学习语言与多模态能力。

InternVL3.5仅训练了1160M 样本（250B token，仅约InternVL1的1/5）,但是在SFT阶段用了约600M样本。

InternVL

公开时间：2024年1月15日

仅介绍了其基于模型架构与训练步骤，只说明数据均来自开源环境，经过筛选后保留合格数据，并未详细介绍数据处理流程。具体使用的数据集来源可以查看论文附录：https://arxiv.org/pdf/2312.14238

整体可以看到用了5B 图文多模态数据集，一条图文对：问题 + 回答 ≈200～500 token，取中间保守值：1 条 ≈ 300 token，5B 条样本 ≈5B × 300 = 1500B token

训练与测试时具体数据集划分。

InternVL1.5

Pre-training Dataset.

Fine-tuning Dataset.

在微调阶段，精心选择数据集，以提高在各种多模态任务中的模型性能。表1b总结了本阶段使用的数据集。在表1中，已经为每个数据集进行了语言注释。对于最初是英文的数据集，作为“zh”的注释表示我们已经使用翻译pipeline将其翻译成中文。例如，COYO [10]和GRIT [90]最初是英语数据集，已经将它们翻译成了中文。

总之，这些数据集一起为微调建立了丰富和多样的基础，这增强了我们的模型处理广泛的多模态任务的能力，并确保其为实际应用做好了准备。

Data Translation Pipeline

为了增强模型的多语言功能，实现了一个翻译流程。该pipeline利用最先进的开源LLMs [4,11,130]或GPT-3.5将英语数据集转换为另一种语言（如中文），从而保持双语标签的一致性和精度。此外，它可以通过调整语言提示符，很容易地扩展到包含更多的语言，而不依赖于手动注释过程。

InternVL2

并未介绍数据处理过程，只介绍到是1.5版本的数据集扩展版

InternVL2.5

在 InternVL 2.0 和 2.5 中，训练数据的组织由几个关键参数控制，以优化训练期间数据集的平衡和分布。

数据配比

数据增强：有条件地应用JPEG 压缩：对图像数据集启用以增强稳健性，对视频数据集禁用以保持一致的帧质量。

最大图块数量：该参数控制每个数据集的最大图块数。例如，较高的值（24-36）用于多图像或高分辨率数据，较低的值（6-12）用于标准图像，1 用于视频。n_max

重复系数：重复因子调整数据集采样频率。低于 1 的值会降低数据集的权重，而高于 1 的值会增加数据集的权重。这可确保任务之间的均衡训练，并防止过拟合或欠拟合。

在总体的训练数据规模上，可以发现v2.5比v2模型多了近一倍，同时由于tille数量的变化，训练视觉token数提升的比例变得更大了。

异常数据过滤

作者发现 LLM 对数据噪声高度敏感，即使是很小的异常（如异常值【文本或图片】或重复数据）也会在推理过程中引起异常行为。事实证明，重复生成，尤其是在长格式或 CoT 推理任务中，特别有害。

为了应对这一挑战并支持未来的研究，作者设计了一种高效的数据过滤管道来去除低质量的样本。

InternVL3

https://hpg123.blog.csdn.net/article/details/156064158

仅介绍了其基于原生多模态预训练，将语言预训练与多模态对齐训练整合于同一预训练阶段，混合输入多模态数据（图文、视频文本等）与大规模纯文本语料实现联合优化，同步学习语言与多模态能力，无需额外桥接模块或跨模型对齐流程即可高效处理跨模态任务。未透露数据处理流程。

InternVL3.5

数据：

总计约1160M 样本（250B token），纯文本 : 多模态 ≈ 1:2.5。
覆盖图像描述、OCR、图表理解、医学等多领域。
最大序列长度为32K。

http://www.jsqmd.com/news/521350/

相关文章：

PowerPaint-V1 Gradio部署指南：Docker独立运行，与.NET应用解耦的最佳实践

GeoScene Enterprise2.1在Windows环境下的高效安装与配置实战

SUNFLOWER MATCH LAB在MATLAB中的调用与混合编程

电化学产热耦合到热传导

Parquet + DuckDB 个人量化海量K线数据存储方案

基于容积卡尔曼滤波CKF的乘用车运动状态参数估计

从 AI 时代回看 C/C++：编程语言为什么没有过时

Gymnasium自定义环境避坑指南：从注册失败到渲染黑屏的5个常见问题及解决方案

【车辆速度控制优化】用于怠速控制的动力总成控制发动机模型及离散PID控制器研究（Matlab代码、Simulink仿真）

微信PC端扫码登录全流程实战：从AppID申请到用户信息获取（附完整代码）

SeqGPT-560M高精度信息抽取实测：人名/机构/金额/时间四字段准确率98.7%

MS1100 VOC气体传感器原理与RT-Thread嵌入式驱动实现

GLM-OCR云端部署与内网穿透：实现本地服务的公网访问

GitHub开源项目README自动化优化：BERT模型重构文档结构

EtherCAT在工业机器人多轴同步控制中的关键技术与实践

RVC模型助力智能客服：个性化语音交互体验升级

SPI驱动TFT-LCD显示模组的硬件设计与驱动开发

SAP SD模块：解码外向交货单的物流与财务协同

如何用开源统计工具JASP轻松完成数据分析：从入门到实践指南

JavaScript 事件循环(Event Loop) 的运作流程（附：queueMicrotask() 将一个回调函数立即排队到微任务队列中）

别再瞎调了！手把手教你用ISO 376标准搞定力传感器校准（附完整流程与避坑点）

AVX指令集实战指南：从基础算术到高级向量操作（附中文函数速查表）

Qwen3-ForcedAligner-0.6B高性能调优：CUDA Graphs加速ForcedAligner推理

小白也能玩转mPLUG视觉问答：本地图片分析，效果惊艳，操作简单

Qwen3-32B-Chat数学推理效果集：微积分推导、算法题解与步骤可解释性展示

用Python从零实现占据栅格地图：逆传感器模型与对数概率的代码优化技巧

信息学奥赛高频考点解析：从洛谷B2145题深入理解digit函数的设计技巧

从零到一：IKFast插件配置的避坑指南与实战优化

VBA——02篇（实战篇——从语法到自动化第一步）

XantoI2C软件I²C库：Arduino多总线扩展与精准时序控制