当前位置: 首页 > news >正文

InternVL(1~3.5版本)多模型大模型训练中的数据集构造总结

InternVL基于互联网开源数据采集了6B数据,经过滤后一阶段用了5B数据,二阶段用了1B数据。SFT阶段,用了4M数据(二阶段的0.4%)。InternVL1.5与上一版本相比,扩大了训练数据集的纳入范围(尤其是关于ORC任务,进行了细粒度的划分),并且设计了翻译流程,补充中文语料训练数据的不足,同时针对测试任务针对性设计了SFT数据。

InternVL2基于1.5版本的数据集,二次进行扩充,同时构建了包含医疗领域的二阶段高质量训练数据。

InternVL2.5 引入了有条件地应用JPEG 压缩,图像分块控制,在总体的训练数据规模上,比v2模型多了近一倍,同时由于tille数量的变化,训练视觉token数提升的比例变得更大了。并提出了异常数据过滤.

InternVL3主要描述将语言预训练与多模态对齐训练整合于同一预训练阶段,混合输入多模态数据(图文、视频文本等)与大规模纯文本语料实现联合优化,同步学习语言与多模态能力。

InternVL3.5仅训练了1160M 样本(250B token,仅约InternVL1的1/5),但是在SFT阶段用了约600M样本。

InternVL

公开时间:2024年1月15日

仅介绍了其基于模型架构与训练步骤,只说明数据均来自开源环境,经过筛选后保留合格数据,并未详细介绍数据处理流程。具体使用的数据集来源可以查看论文附录:https://arxiv.org/pdf/2312.14238

整体可以看到用了5B 图文多模态数据集,一条图文对:问题 + 回答 ≈200~500 token,取中间保守值:1 条 ≈ 300 token,5B 条样本 ≈5B × 300 = 1500B token

训练与测试时具体数据集划分。

InternVL1.5

Pre-training Dataset.


Fine-tuning Dataset.

在微调阶段,精心选择数据集,以提高在各种多模态任务中的模型性能。表1b总结了本阶段使用的数据集。在表1中,已经为每个数据集进行了语言注释。对于最初是英文的数据集,作为“zh”的注释表示我们已经使用翻译pipeline将其翻译成中文。例如,COYO [10]和GRIT [90]最初是英语数据集,已经将它们翻译成了中文。

总之,这些数据集一起为微调建立了丰富和多样的基础,这增强了我们的模型处理广泛的多模态任务的能力,并确保其为实际应用做好了准备。

Data Translation Pipeline

为了增强模型的多语言功能, 实现了一个翻译流程。该pipeline利用最先进的开源LLMs [4,11,130]或GPT-3.5将英语数据集转换为另一种语言(如中文),从而保持双语标签的一致性和精度。此外,它可以通过调整语言提示符,很容易地扩展到包含更多的语言,而不依赖于手动注释过程。

InternVL2

并未介绍数据处理过程,只介绍到是1.5版本的数据集扩展版

InternVL2.5

在 InternVL 2.0 和 2.5 中,训练数据的组织由几个关键参数控制,以优化训练期间数据集的平衡和分布。

数据配比

数据增强:有条件地应用JPEG 压缩:对图像数据集启用以增强稳健性,对视频数据集禁用以保持一致的帧质量。

最大图块数量:该参数控制每个数据集的最大图块数。例如,较高的值 (24-36) 用于多图像或高分辨率数据,较低的值 (6-12) 用于标准图像,1 用于视频。n_max

重复系数:重复因子调整数据集采样频率。低于 1 的值会降低数据集的权重,而高于 1 的值会增加数据集的权重。这可确保任务之间的均衡训练,并防止过拟合或欠拟合。

在总体的训练数据规模上,可以发现v2.5比v2模型多了近一倍,同时由于tille数量的变化,训练视觉token数提升的比例变得更大了。

异常数据过滤

作者发现 LLM 对数据噪声高度敏感,即使是很小的异常(如异常值【文本或图片】或重复数据)也会在推理过程中引起异常行为。事实证明,重复生成,尤其是在长格式或 CoT 推理任务中,特别有害。

为了应对这一挑战并支持未来的研究,作者设计了一种高效的数据过滤管道来去除低质量的样本。


InternVL3

https://hpg123.blog.csdn.net/article/details/156064158

仅介绍了其基于原生多模态预训练,将语言预训练与多模态对齐训练整合于同一预训练阶段,混合输入多模态数据(图文、视频文本等)与大规模纯文本语料实现联合优化,同步学习语言与多模态能力,无需额外桥接模块或跨模型对齐流程即可高效处理跨模态任务。未透露数据处理流程。

InternVL3.5

数据:

  • 总计约1160M 样本(250B token),纯文本 : 多模态 ≈ 1:2.5。
  • 覆盖图像描述、OCR、图表理解、医学等多领域。
  • 最大序列长度为32K

http://www.jsqmd.com/news/521350/

相关文章:

  • PowerPaint-V1 Gradio部署指南:Docker独立运行,与.NET应用解耦的最佳实践
  • GeoScene Enterprise2.1在Windows环境下的高效安装与配置实战
  • SUNFLOWER MATCH LAB在MATLAB中的调用与混合编程
  • 电化学产热耦合到热传导
  • Parquet + DuckDB 个人量化海量K线数据存储方案
  • 基于容积卡尔曼滤波CKF的乘用车运动状态参数估计
  • 从 AI 时代回看 C/C++:编程语言为什么没有过时
  • Gymnasium自定义环境避坑指南:从注册失败到渲染黑屏的5个常见问题及解决方案
  • 【车辆速度控制优化】用于怠速控制的动力总成控制发动机模型及离散PID控制器研究(Matlab代码、Simulink仿真)
  • 微信PC端扫码登录全流程实战:从AppID申请到用户信息获取(附完整代码)
  • SeqGPT-560M高精度信息抽取实测:人名/机构/金额/时间四字段准确率98.7%
  • MS1100 VOC气体传感器原理与RT-Thread嵌入式驱动实现
  • GLM-OCR云端部署与内网穿透:实现本地服务的公网访问
  • GitHub开源项目README自动化优化:BERT模型重构文档结构
  • EtherCAT在工业机器人多轴同步控制中的关键技术与实践
  • RVC模型助力智能客服:个性化语音交互体验升级
  • SPI驱动TFT-LCD显示模组的硬件设计与驱动开发
  • SAP SD模块:解码外向交货单的物流与财务协同
  • 如何用开源统计工具JASP轻松完成数据分析:从入门到实践指南
  • JavaScript 事件循环(Event Loop) 的运作流程(附:queueMicrotask() 将一个回调函数立即排队到微任务队列中)
  • 别再瞎调了!手把手教你用ISO 376标准搞定力传感器校准(附完整流程与避坑点)
  • AVX指令集实战指南:从基础算术到高级向量操作(附中文函数速查表)
  • Qwen3-ForcedAligner-0.6B高性能调优:CUDA Graphs加速ForcedAligner推理
  • 小白也能玩转mPLUG视觉问答:本地图片分析,效果惊艳,操作简单
  • Qwen3-32B-Chat数学推理效果集:微积分推导、算法题解与步骤可解释性展示
  • 用Python从零实现占据栅格地图:逆传感器模型与对数概率的代码优化技巧
  • 信息学奥赛高频考点解析:从洛谷B2145题深入理解digit函数的设计技巧
  • 从零到一:IKFast插件配置的避坑指南与实战优化
  • VBA——02篇(实战篇——从语法到自动化第一步)
  • XantoI2C软件I²C库:Arduino多总线扩展与精准时序控制