当前位置: 首页 > news >正文

最新 AI 论文盘点(2026-04-16):4 篇新作看长视频压缩、预训练空间强化学习、具身操作分层控制与蒸馏中的关键 token

最新 AI 论文盘点(2026-04-16):4 篇新作看长视频压缩、预训练空间强化学习、具身操作分层控制与蒸馏中的关键 token

今天这批论文有个很明显的共同点:

它们都不是在单纯追求“再大一点的模型”,而是在处理系统真正卡住的瓶颈。

比如,长视频进 VLM 时上下文根本放不下;推理强化学习很容易被当前模型分布卡死;端到端 VLA 一微调就把原本的视觉推理能力磨掉;on-policy distillation 里,大量 token 其实并不值得同等训练成本。

这些问题都很工程,不花哨,但每一个都直接决定系统能不能继续往上走。

今天我挑 4 篇 2026-04-16 挂到 arXiv 的新论文来盘,覆盖长视频理解、LLM 强化学习、具身智能和模型蒸馏四条线。相比“哪个榜单又涨了 1 个点”,这几篇更值得看的是:它们都在认真回答“资源到底花在哪里最值”。

今天挑的 4 篇论文

  • One Token per Highly Selective Frame:长视频理解怎么把 token 压到极限,同时别把时序信息压没

  • PreRL / DSRL:强化学习不只优化 (P(y|x)),还能不能直接改写预训练空间里的 (P(y))

  • HiVLA:为什么具身操作不该把高层规划和底层动作硬绑在一个模型里

  • TIP:on-policy distillation 里,哪些 token 真正最值得学

1)One Token per Highly Selective Frame:长视频理解,先把 token 预算这件事算明白

  • arXiv:2604.14149

  • 标题:One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding

  • 方向:视频理解 / VLM / 长上下文压缩

长视频理解这条线现在有个非常现实的问题:

不是模型“看不懂”,而是根本“看不过来”。

一段长视频如果按常规方式送进视觉语言模型,每帧会展开成几十到上百个视觉 token。视频一长,LLM 上下文立刻爆掉。很多系统只能做稀疏采样,于是细粒度时序线索在前面就已经丢了。

这篇论文的核心思路是:

把视频压缩做到非常激进,目标是每帧最终只保留 1 个 token,但压缩过程不能是拍脑袋选 token,而要让模型自己学会压。

第一层:token-level compression

他们提出 LP-Comp,把 LLM 层里的压缩做成可学习、渐进式模块,而不是手工规则裁剪。

直观理解就是:

  • 不是先在视觉编码器侧粗暴砍掉大量 patch

  • 而是在更靠近语言建模的层里,让模型逐步学会哪些信息应该留下

这么做的好处是,压缩决策和最终任务目标绑定得更紧,不容易出现“省了 token,但把回答真正依赖的信息一起省掉”的情况。

第二层:frame-level compression

只有每帧压缩还不够,因为真正长视频的麻烦往往是“帧太多”。

所以他们又做了 query-aware 的帧选择,即 QC-Comp:

  • 利用 LLM 内部 attention 分数

  • 选出对当前问题最相关的帧

  • 不是平均对待所有时间位置

作者还专门处理了长上下文里常见的 position bias,也就是模型更偏向序列开头和结尾、忽略中间内容的问题。方法是把长视频切成短 segment,再做局部 attention,避免注意力天然向两端塌缩。

为什么这篇论文值得看

这篇工作的价值不只是“压得更狠”。

更重要的是,它把长视频理解的资源分配问题拆成了两个层面:

  • 每帧内部哪些 token 值得保留

  • 整段视频里哪些帧值得保留

这比只做一种统一压缩更接近真实系统需求。

结果怎么看

论文里给出的一个关键结果是:

  • 仅用原监督微调数据的2.5%做 supervised compression tuning

  • LVBench 准确率从42.9%提到46.2%

  • 同时能处理2x-4x 更多帧

这个结果说明了一件事:

长视频性能瓶颈不一定是基座模型不够强,很可能是 token 预算没有分配好。

适用场景

  • 视频问答

  • 长视频检索

  • 监控/会议/教学录像理解

  • 需要在有限上下文里保留更多时间细节的 VLM 系统

局限

  • 这类方法很依赖“问题相关帧”确实能被内部注意力较早识别出来

  • 对完全开放式、多跳时序推理任务,过强压缩仍可能漏掉后续需要的上下文

2)PreRL / DSRL:强化学习不只改 (P(y|x)),还能先修 (P(y))

  • arXiv:2604.14142

  • 标题:From (P(y|x)) to (P(y)): Investigating Reinforcement Learning in Pre-train Space

  • 方向:LLM / 推理强化学习 / post-training

这篇论文很有意思,因为它不是在现有 RLVR 框架里微调技巧,而是直接质疑优化对象本身。

现在大模型推理强化学习通常优化的是条件分布:

P(y∣x) P(y\mid x)P(yx)

其中:

  • (x) 表示输入问题

  • (y) 表示模型生成的回答或推理轨迹

这种做法当然有效,但作者指出一个天花板:

如果基础模型本身在预训练阶段形成的输出空间就偏了,只靠在条件分布上做 RL,能改的范围仍然受限。

所以他们尝试把强化学习往前挪,直接作用在预训练空间的边缘分布:

P(y) P(y)P(y)

直觉上,这相当于不只是教模型“看到这个题时怎么答”,而是先调整“模型总体更倾向生成什么样的思维模式与推理轨迹”。

论文的关键点 1:证明 (\log P(y)) 和 (\log P(y\mid x)) 的梯度有较强对齐

这是这篇论文最重要的理论支撑。

如果预训练空间里的更新方向和标准 RL 的更新方向完全不一致,那这件事就站不住。

作者给出的结论是:

  • 在理论和实验上,二者存在显著梯度对齐

  • 所以在预训练空间上做 reward-driven online update 是可行的 surrogate

论文的关键点 2:Negative Sample Reinforcement(NSR)特别有效

作者发现,在 PreRL 里,负样本强化反而很关键。

也就是,不只是奖励正确轨迹,还要主动强化“剪掉错误推理空间”这件事。

文中提到,NSR-PreRL 会显著增加模型的 transition thoughts 和 reflection thoughts,分别提升:

  • 14.89x

  • 6.54x

这说明它不只是让模型少犯错,而是在改变模型内部的推理展开方式。

论文的关键点 3:提出 Dual Space RL(DSRL)

完整训练流程不是只做 PreRL,而是两段式:

  1. 先用 NSR-PreRL 在预训练空间里扩展/修正推理搜索边界

  2. 再切回标准 RL,在条件分布上做精修

这个设计很像先做粗粒度策略重塑,再做任务条件下的细粒度对齐。

为什么这篇论文值得看

它真正切中的问题是:

当 RLVR 越来越卷实现细节时,我们可能忽略了更上游的约束——基础模型原本就允许你走到哪些推理区域。

如果这个问题成立,那么很多“RL 再怎么调也就这样”的现象,就不一定是 reward 不够好,而是底层分布没被动到。

适用场景

  • LLM 推理增强

  • 数学/代码/可验证任务的 post-training

  • 希望把 RL 从局部修补推进到更广策略重塑的训练管线

局限

  • 这条路线需要在线更新预训练空间,训练成本和稳定性门槛不低

  • 对开放式任务的泛化边界、以及对非推理能力的副作用,还需要更多实验

3)HiVLA:具身操作系统里,高层理解和低层控制最好别硬绑死

  • arXiv:2604.14125

  • 标题:HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

  • 方向:具身智能 / VLA / 机器人操作

Vision-Language-Action 这两年很热,但端到端路线有个很难绕开的矛盾:

你想让模型直接从图像、语言到动作一把梭,很优雅;但一旦拿窄域控制数据去微调,原来 VLM 里那部分还不错的语义推理能力,经常会被一起磨掉。

HiVLA 的核心判断很直接:

高层语义规划和低层动作执行,本来就不应该由同一套表示在同一个尺度上硬撑。

所以它把系统拆成两层。

高层:VLM planner 做任务分解 + visual grounding

高层模块输出的不是直接动作,而是结构化计划:

  • 当前子任务指令

  • 目标物体的精确 bounding box

这一步很关键,因为它让“看懂场景”“决定下一步做什么”和“具体机械臂怎么走”分开了。

低层:DiT action expert 专门负责执行

低层动作专家使用 flow-matching Diffusion Transformer,并用 cascaded cross-attention 依次融合:

  • 全局场景上下文

  • 高分辨率目标裁剪区域

  • 技能语义信息

这个设计很工程化,也很合理。

因为精细操作,尤其是 cluttered scene 下抓小物体,最怕的就是:

  • 全局信息不够,动作没有任务上下文

  • 局部信息不够,末端控制又不准

HiVLA 的 cascaded cross-attention 本质上是在解决“先知道大局,再盯住目标,再结合技能”的信息流顺序问题。

为什么这篇论文值得看

它不是简单说“hierarchical 更好”,而是把具身系统里两个经常互相伤害的目标明确拆开了:

  • 保住 VLM 的零样本推理与泛化能力

  • 让动作模块只为稳定执行负责

这比把所有能力压进一个统一策略里更符合工程常识。

适用场景

  • 长时序具身任务

  • 小目标、杂乱场景操作

  • 需要同时保留任务理解能力和高精度执行能力的机器人系统

局限

  • 分层系统通常会引入接口误差,高层 grounding 一旦偏了,低层再强也会执行错对象

  • 真机部署时,感知延迟与动作闭环鲁棒性仍然是关键挑战

4)TIP:蒸馏时不是所有 token 都一样值钱,真正该学的是“犹豫的”和“自信但错的”

  • arXiv:2604.14084

  • 标题:TIP: Token Importance in On-Policy Distillation

  • 方向:模型蒸馏 / LLM 训练效率 / token selection

这篇论文讨论的是一个很容易被忽略,但非常实用的问题:

在 on-policy distillation 里,学生模型会在自己的 rollout 上学习教师的 token 级监督。默认做法通常是:

所有 token 都训练。

但这其实很浪费。

因为并不是每一个 token 位置都提供同等强度的学习信号。

作者提出了一个很清楚的判断框架:

真正有价值的 token 主要来自两类区域。

第一类:高熵 token

也就是学生模型本身不确定的位置。

如果把学生在位置 (t) 的预测分布记作 (p_t),那么其熵为:

H(pt)=−∑ipt(i)log⁡pt(i) H(p_t)=-\sum_i p_t(i)\log p_t(i)H(pt)=ipt(i)logpt(i)

其中:

  • (p_t(i)) 表示第 (t) 个位置生成词表中第 (i) 个 token 的概率

  • (H(p_t)) 越高,说明学生越拿不准

这类位置天然适合学习,因为学生自己已经暴露出“我不会”。

第二类:低熵但高分歧 token

更有意思的是第二类:

学生看起来很自信,但和老师差得很远。

这可以用 teacher-student divergence 来描述,比如 KL 散度:

DKL(qt∥pt)=∑iqt(i)log⁡qt(i)pt(i) D_{\mathrm{KL}}(q_t\parallel p_t)=\sum_i q_t(i)\log \frac{q_t(i)}{p_t(i)}DKL(qtpt)=iqt(i)logpt(i)qt(i)

其中:

  • (q_t) 是教师在位置 (t) 的分布

  • (p_t) 是学生在位置 (t) 的分布

  • 散度越大,说明学生虽然自信,但自信错了

这类 token 之所以重要,是因为它们携带的是高密度纠错信号。

TIP 的核心结论

作者把 token 按“学生熵”和“师生分歧”两条轴组织成 taxonomy,得到一个很实用的训练认识:

  • 只用熵做筛选,已经是很强的一阶近似

  • 但只看熵不够,因为会漏掉“低熵高分歧”的关键错误 token

实验结果挺硬:

  • 用熵采样保留50%token,效果可匹配甚至超过全 token 训练,同时峰值显存下降47%

  • 只训练不到10%的“低熵高分歧” token,已经能逼近 full-token baseline

  • 在 DeepPlanning 上,仅训练<20%token 的特定区域,甚至超过 full-token OPD

为什么这篇论文值得看

因为它给的是非常可落地的结论。

如果你在做资源受限下的蒸馏,论文给出的不是模糊建议,而是一个直接可编码的策略:

  • 先算学生熵

  • 再补教师分歧

  • 优先训练真正有学习价值的位置

这对显存、吞吐、训练预算都是真金白银的收益。

适用场景

  • LLM 蒸馏

  • on-policy self-improvement

  • 受 GPU 预算约束的 teacher-student 训练

局限

  • 依赖教师分布时,需要额外前向成本

  • token 重要性是否能稳定迁移到多语言、代码、工具调用等场景,还要继续验证

今天这 4 篇放在一起,最值得记住什么?

如果只用一句话概括,我会说:

好系统不是“把所有信息都吃进去”,而是更准确地决定哪些信息该保留、在哪个空间里优化、以及哪一层该负责什么。

这 4 篇论文分别在解决不同层面的资源错配:

  • 长视频理解里,token 和帧预算怎么分

  • 推理强化学习里,优化该发生在条件分布还是更上游的预训练空间

  • 具身系统里,语义规划和动作执行怎么拆

  • 模型蒸馏里,训练预算到底该砸在哪些 token 上

它们背后的共同趋势是:研究越来越少迷信统一大模型包打天下,越来越重视模块边界、优化对象和资源分配

如果你现在在做系统,今天最值得优先跟哪几篇?

  • 做视频理解 / VLM:优先看One Token per Highly Selective Frame

  • 做 reasoning RL:优先看PreRL / DSRL

  • 做机器人 / 具身操作:优先看HiVLA

  • 做蒸馏 / 降本训练:优先看TIP

如果只能先精读两篇,我会优先推荐:

  • PreRL / DSRL:因为它在动 post-training 的优化对象本身

  • TIP:因为它最容易直接变成训练系统里的收益

小结

今天这批论文给人的感觉不是“又来了几个新 benchmark”,而是:

大家开始更认真地处理系统真正贵、真正慢、真正容易失真的地方。

这很重要。

因为下一阶段很多模型能力的提升,未必来自更大的参数量,而更可能来自对这些资源瓶颈的重新拆解。

参考链接

  • arXiv:2604.14149 — https://arxiv.org/abs/2604.14149

  • arXiv:2604.14142 — https://arxiv.org/abs/2604.14142

  • arXiv:2604.14125 — https://arxiv.org/abs/2604.14125

  • arXiv:2604.14084 — https://arxiv.org/abs/2604.14084

http://www.jsqmd.com/news/650548/

相关文章:

  • 别再纠结5G覆盖了!手把手教你用DSS技术,让4G基站原地升级5G(附RRU软件升级实战)
  • 如何用GetQzonehistory轻松备份你的QQ空间历史说说
  • OmenSuperHub:惠普游戏本性能完全释放指南,告别官方软件束缚
  • 2026做项目常用的正版视频素材网站,都在这篇里了 - Fzzf_23
  • 【生成式AI可观测性白皮书】:从Prompt注入到推理退化,构建具备因果推断能力的智能告警闭环
  • 2026年PVC厂家权威发布榜,PVC管/PVC管件/PVC排水管/PVC给水管/PVC穿线管 - 品牌策略师
  • 跨域问题解决方案 - record
  • 3分钟学会用GetQzonehistory永久保存QQ空间青春记忆
  • AutoDock-Vina完整指南:快速掌握开源分子对接工具
  • 告别复杂流程!AnythingtoRealCharacters2511动漫转真人超简单
  • 如何用嘎嘎降AI处理医学类论文:医学专业术语保护操作指南 - 还在做实验的师兄
  • 【网络安全】从原理到实战:深入剖析ARP攻击与立体化防御
  • 反射内存交换机使用手册
  • 杭州邹氏建设服务有限公司:临平区房屋拆除哪家好 - LYL仔仔
  • 从信号到策略:解码无线信道关键指标RSRP、SNR、BLER、MCS、CSI的闭环逻辑
  • 新闻摘要生成已进入“毫秒级可控时代”?SITS2026发布首个支持事实溯源的实时摘要API
  • Ostrakon-VL一键部署教程:10分钟搞定AI视觉语言模型环境
  • 南通一物一码软件定制,为什么开始被白酒企业反复提起
  • 青图沐羽基本信息大揭秘,看看口碑到底靠不靠谱 - 工业设备
  • AI入门必备工具——Python与核心框架,新手零门槛上手
  • 2026年甘肃/青海不锈钢阀门厂家精选 适配工业工程且售后响应迅速 - 深度智识库
  • 深入解析deb打包:从control文件到桌面快捷方式
  • Python24_async with语法
  • 全域外卖运营服务专业公司选购指南,服务不错的品牌有哪些 - 工业推荐榜
  • 告别烧录器!用S32K144和CAN总线实现汽车ECU远程刷写(附完整代码)
  • 真空均质乳化机(上海新浪)液压升降真空均质乳化机简介 - 品牌推荐大师
  • 【生成式AI混沌工程实战指南】:20年SRE专家亲授5大高危故障注入场景与熔断策略
  • Android网络调试进阶:巧用adb与tcpdump进行精准抓包分析
  • 性价比高的抖音外卖优质服务机构怎么选,为你深度剖析 - mypinpai
  • DELL服务器RAID配置与VMware ESXi 6.7安装实战指南