当前位置：首页 > news >正文

2025_NIPS_Scaling RL to Long Videos

news 2026/3/27 1:04:46

文章核心总结与创新点

一、主要内容

本文提出了一套全面的框架LongVILA-R1，旨在解决视觉语言模型（VLMs）在长视频推理任务中的性能瓶颈，核心围绕长视频推理能力的规模化提升展开，具体包括三部分关键内容：

数据集构建：创建了大规模长视频推理数据集LongVideo-Reason，包含104K带思维链（CoT）标注的问答对，涵盖体育、游戏、博客等多领域，同时划分36K样本用于监督微调（CoT-SFT）、68K样本结合102K开源视频数据用于强化学习（RL），并构建了LongVideo-Reason-eval基准，从时间、目标、空间、情节四大维度评估推理能力。
两阶段训练 pipeline：
- 阶段一（Long CoT-SFT）：基于MM-SP系统进行热身训练，通过高质量思维链标注赋予模型基础推理和指令遵循能力；
- 阶段二（长视频RL）：采用GRPO算法，结合多模态强化序列并行（MR-SP）框架，解决长视频帧处理的内存和速度问题。
高效训练框架：提出MR-SP框架，通过并行编码、视频嵌入缓存复用、序列并行预填充等策略，支持超长视频（最高8192帧）的RL训练，在单A100节点（8块GPU）上实现小时级视频（3600帧）训练，且训练速度提升2.1倍。
实验验证：LongVILA-R1-7B在VideoMME等6个主流基准上表现优异，无字幕

http://www.jsqmd.com/news/490767/

相关文章：

【Dv3Admin】FastCRUD MD编辑器操作

open claw安装在windows wsl中教程

HDOJ 课程例题记录

第三方 API 调用 OpenClaw 出现 LLM request timed out 的解决方案

openclaw+qwen(笔记，非教程)

讲讲普通小轿车驾驶证报考流程及费用，西安哪家驾校好？ - mypinpai

UE5C++Part2--几种常见的变量类型

企业级RustDesk私有化部署：Docker Swarm集群方案与安全加固指南

（85页PPT）某著名企业贝因美IT规划咨询报告（附下载方式）

Simulink仿真漂移机理分析（二）：相图分析

R轻松玩转Excel数据

课程记录：Windows2

高德地图混合部署实战：离线瓦片与在线API的智能切换策略

西安国文驾校二轮摩托车考驾照口碑如何，值得推荐吗 - 工业品牌热点

探讨专业的精密锻造公司，三邑锻造在全国排名第几？ - 工业推荐榜

【一篇即毕业系列】C++的引用从基础到通天

仅剩72小时！生态环境部新发布的《污染预测模型R实现规范》（HJ 1308-2024）强制适配倒计时（含兼容性迁移速查表）

2026 本科生论文工具盘点：9 款 AI 工具搞定初稿 / 绘图 / 排版 / AI 率

leetcode 1389. Create Target Array in the Given Order 按既定顺序创建目标数组-耗时100

国内免费AI聊天网站大全：稳定直连与高效响应指南

从零开始了解数据采集——制造业数字孪生

2026年北京老人陪护企业怎么选择，北京吉至嘉家政是优选 - myqiye

Web原生数据库工具选型指南：SQLynx vs Navicat在云环境下的真实表现

探讨创新能力强的超薄弹簧不锈钢带加工厂，哪家口碑好？ - 工业设备

通义千问1.5-1.8B-Chat-GPTQ-Int4应用：AIGC内容创作中的提示词优化

破局与共生：制造业数字化浪潮下的机床网络推广新生态 - 品牌推荐大师

[DotNet] Linux 下如何编译，才能得到一个不依赖任何 so 的独立二进制文件？

树莓派5实战：用NCNN跑通YOLOv5目标检测（附完整代码）

集对分析法在供应链风险管理中的5个典型应用场景（含Excel模板）

每周读书与学习-Jmeter中如何使用Bean Shell脚本（三）Bean Shell的基础语法之运算符和控制流语句