当前位置: 首页 > news >正文

2025_NIPS_Scaling RL to Long Videos

文章核心总结与创新点

一、主要内容

本文提出了一套全面的框架LongVILA-R1,旨在解决视觉语言模型(VLMs)在长视频推理任务中的性能瓶颈,核心围绕长视频推理能力的规模化提升展开,具体包括三部分关键内容:

  1. 数据集构建:创建了大规模长视频推理数据集LongVideo-Reason,包含104K带思维链(CoT)标注的问答对,涵盖体育、游戏、博客等多领域,同时划分36K样本用于监督微调(CoT-SFT)、68K样本结合102K开源视频数据用于强化学习(RL),并构建了LongVideo-Reason-eval基准,从时间、目标、空间、情节四大维度评估推理能力。
  2. 两阶段训练 pipeline
    • 阶段一(Long CoT-SFT):基于MM-SP系统进行热身训练,通过高质量思维链标注赋予模型基础推理和指令遵循能力;
    • 阶段二(长视频RL):采用GRPO算法,结合多模态强化序列并行(MR-SP)框架,解决长视频帧处理的内存和速度问题。
  3. 高效训练框架:提出MR-SP框架,通过并行编码、视频嵌入缓存复用、序列并行预填充等策略,支持超长视频(最高8192帧)的RL训练,在单A100节点(8块GPU)上实现小时级视频(3600帧)训练,且训练速度提升2.1倍。
  4. 实验验证:LongVILA-R1-7B在VideoMME等6个主流基准上表现优异,无字幕
http://www.jsqmd.com/news/490767/

相关文章:

  • 【Dv3Admin】FastCRUD MD编辑器操作
  • open claw安装在windows wsl中教程
  • HDOJ 课程例题记录
  • 第三方 API 调用 OpenClaw 出现 LLM request timed out 的解决方案
  • openclaw+qwen(笔记,非教程)
  • 讲讲普通小轿车驾驶证报考流程及费用,西安哪家驾校好? - mypinpai
  • UE5C++Part2--几种常见的变量类型
  • 企业级RustDesk私有化部署:Docker Swarm集群方案与安全加固指南
  • (85页PPT)某著名企业贝因美IT规划咨询报告(附下载方式)
  • Simulink仿真漂移机理分析(二):相图分析
  • R轻松玩转Excel数据
  • 课程记录:Windows2
  • 高德地图混合部署实战:离线瓦片与在线API的智能切换策略
  • 西安国文驾校二轮摩托车考驾照口碑如何,值得推荐吗 - 工业品牌热点
  • 探讨专业的精密锻造公司,三邑锻造在全国排名第几? - 工业推荐榜
  • 【一篇即毕业系列】C++的引用从基础到通天
  • 仅剩72小时!生态环境部新发布的《污染预测模型R实现规范》(HJ 1308-2024)强制适配倒计时(含兼容性迁移速查表)
  • 2026 本科生论文工具盘点:9 款 AI 工具搞定初稿 / 绘图 / 排版 / AI 率
  • leetcode 1389. Create Target Array in the Given Order 按既定顺序创建目标数组-耗时100
  • 国内免费AI聊天网站大全:稳定直连与高效响应指南
  • 从零开始了解数据采集——制造业数字孪生
  • 2026年北京老人陪护企业怎么选择,北京吉至嘉家政是优选 - myqiye
  • Web原生数据库工具选型指南:SQLynx vs Navicat在云环境下的真实表现
  • 探讨创新能力强的超薄弹簧不锈钢带加工厂,哪家口碑好? - 工业设备
  • 通义千问1.5-1.8B-Chat-GPTQ-Int4应用:AIGC内容创作中的提示词优化
  • 破局与共生:制造业数字化浪潮下的机床网络推广新生态 - 品牌推荐大师
  • [DotNet] Linux 下如何编译,才能得到一个不依赖任何 so 的独立二进制文件?
  • 树莓派5实战:用NCNN跑通YOLOv5目标检测(附完整代码)
  • 集对分析法在供应链风险管理中的5个典型应用场景(含Excel模板)
  • 每周读书与学习-Jmeter中如何使用Bean Shell脚本(三)Bean Shell的基础语法之运算符和控制流语句