当前位置：首页 > news >正文

最新 AI 论文盘点（2026-04-16）：4 篇新作看长视频压缩、预训练空间强化学习、具身操作分层控制与蒸馏中的关键 token

news 2026/6/4 9:53:59

最新 AI 论文盘点（2026-04-16）：4 篇新作看长视频压缩、预训练空间强化学习、具身操作分层控制与蒸馏中的关键 token

今天这批论文有个很明显的共同点：

它们都不是在单纯追求“再大一点的模型”，而是在处理系统真正卡住的瓶颈。

比如，长视频进 VLM 时上下文根本放不下；推理强化学习很容易被当前模型分布卡死；端到端 VLA 一微调就把原本的视觉推理能力磨掉；on-policy distillation 里，大量 token 其实并不值得同等训练成本。

这些问题都很工程，不花哨，但每一个都直接决定系统能不能继续往上走。

今天我挑 4 篇 2026-04-16 挂到 arXiv 的新论文来盘，覆盖长视频理解、LLM 强化学习、具身智能和模型蒸馏四条线。相比“哪个榜单又涨了 1 个点”，这几篇更值得看的是：它们都在认真回答“资源到底花在哪里最值”。

今天挑的 4 篇论文

One Token per Highly Selective Frame：长视频理解怎么把 token 压到极限，同时别把时序信息压没
PreRL / DSRL：强化学习不只优化 (P(y|x))，还能不能直接改写预训练空间里的 (P(y))
HiVLA：为什么具身操作不该把高层规划和底层动作硬绑在一个模型里
TIP：on-policy distillation 里，哪些 token 真正最值得学

1）One Token per Highly Selective Frame：长视频理解，先把 token 预算这件事算明白

arXiv：2604.14149
标题：One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding
方向：视频理解 / VLM / 长上下文压缩

长视频理解这条线现在有个非常现实的问题：

不是模型“看不懂”，而是根本“看不过来”。

一段长视频如果按常规方式送进视觉语言模型，每帧会展开成几十到上百个视觉 token。视频一长，LLM 上下文立刻爆掉。很多系统只能做稀疏采样，于是细粒度时序线索在前面就已经丢了。

这篇论文的核心思路是：

把视频压缩做到非常激进，目标是每帧最终只保留 1 个 token，但压缩过程不能是拍脑袋选 token，而要让模型自己学会压。

第一层：token-level compression

他们提出 LP-Comp，把 LLM 层里的压缩做成可学习、渐进式模块，而不是手工规则裁剪。

直观理解就是：

不是先在视觉编码器侧粗暴砍掉大量 patch
而是在更靠近语言建模的层里，让模型逐步学会哪些信息应该留下

这么做的好处是，压缩决策和最终任务目标绑定得更紧，不容易出现“省了 token，但把回答真正依赖的信息一起省掉”的情况。

第二层：frame-level compression

只有每帧压缩还不够，因为真正长视频的麻烦往往是“帧太多”。

所以他们又做了 query-aware 的帧选择，即 QC-Comp：

利用 LLM 内部 attention 分数
选出对当前问题最相关的帧
不是平均对待所有时间位置

作者还专门处理了长上下文里常见的 position bias，也就是模型更偏向序列开头和结尾、忽略中间内容的问题。方法是把长视频切成短 segment，再做局部 attention，避免注意力天然向两端塌缩。

为什么这篇论文值得看

这篇工作的价值不只是“压得更狠”。

更重要的是，它把长视频理解的资源分配问题拆成了两个层面：

每帧内部哪些 token 值得保留
整段视频里哪些帧值得保留

这比只做一种统一压缩更接近真实系统需求。

结果怎么看

论文里给出的一个关键结果是：

仅用原监督微调数据的2.5%做 supervised compression tuning
LVBench 准确率从42.9%提到46.2%
同时能处理2x-4x 更多帧

这个结果说明了一件事：

长视频性能瓶颈不一定是基座模型不够强，很可能是 token 预算没有分配好。

适用场景

视频问答
长视频检索
监控/会议/教学录像理解
需要在有限上下文里保留更多时间细节的 VLM 系统

局限

这类方法很依赖“问题相关帧”确实能被内部注意力较早识别出来
对完全开放式、多跳时序推理任务，过强压缩仍可能漏掉后续需要的上下文

2）PreRL / DSRL：强化学习不只改 (P(y|x))，还能先修 (P(y))

arXiv：2604.14142
标题：From (P(y|x)) to (P(y)): Investigating Reinforcement Learning in Pre-train Space
方向：LLM / 推理强化学习 / post-training

这篇论文很有意思，因为它不是在现有 RLVR 框架里微调技巧，而是直接质疑优化对象本身。

现在大模型推理强化学习通常优化的是条件分布：

P(y∣x) P(y\mid x)P(y∣x)

其中：

(x) 表示输入问题
(y) 表示模型生成的回答或推理轨迹

这种做法当然有效，但作者指出一个天花板：

如果基础模型本身在预训练阶段形成的输出空间就偏了，只靠在条件分布上做 RL，能改的范围仍然受限。

所以他们尝试把强化学习往前挪，直接作用在预训练空间的边缘分布：

P(y) P(y)P(y)

直觉上，这相当于不只是教模型“看到这个题时怎么答”，而是先调整“模型总体更倾向生成什么样的思维模式与推理轨迹”。

论文的关键点 1：证明 (\log P(y)) 和 (\log P(y\mid x)) 的梯度有较强对齐

这是这篇论文最重要的理论支撑。

如果预训练空间里的更新方向和标准 RL 的更新方向完全不一致，那这件事就站不住。

作者给出的结论是：

在理论和实验上，二者存在显著梯度对齐
所以在预训练空间上做 reward-driven online update 是可行的 surrogate

论文的关键点 2：Negative Sample Reinforcement（NSR）特别有效

作者发现，在 PreRL 里，负样本强化反而很关键。

也就是，不只是奖励正确轨迹，还要主动强化“剪掉错误推理空间”这件事。

文中提到，NSR-PreRL 会显著增加模型的 transition thoughts 和 reflection thoughts，分别提升：

14.89x
6.54x

这说明它不只是让模型少犯错，而是在改变模型内部的推理展开方式。

论文的关键点 3：提出 Dual Space RL（DSRL）

完整训练流程不是只做 PreRL，而是两段式：

先用 NSR-PreRL 在预训练空间里扩展/修正推理搜索边界
再切回标准 RL，在条件分布上做精修

这个设计很像先做粗粒度策略重塑，再做任务条件下的细粒度对齐。

为什么这篇论文值得看

它真正切中的问题是：

当 RLVR 越来越卷实现细节时，我们可能忽略了更上游的约束——基础模型原本就允许你走到哪些推理区域。

如果这个问题成立，那么很多“RL 再怎么调也就这样”的现象，就不一定是 reward 不够好，而是底层分布没被动到。

适用场景

LLM 推理增强
数学/代码/可验证任务的 post-training
希望把 RL 从局部修补推进到更广策略重塑的训练管线

局限

这条路线需要在线更新预训练空间，训练成本和稳定性门槛不低
对开放式任务的泛化边界、以及对非推理能力的副作用，还需要更多实验

3）HiVLA：具身操作系统里，高层理解和低层控制最好别硬绑死

arXiv：2604.14125
标题：HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
方向：具身智能 / VLA / 机器人操作

Vision-Language-Action 这两年很热，但端到端路线有个很难绕开的矛盾：

你想让模型直接从图像、语言到动作一把梭，很优雅；但一旦拿窄域控制数据去微调，原来 VLM 里那部分还不错的语义推理能力，经常会被一起磨掉。

HiVLA 的核心判断很直接：

高层语义规划和低层动作执行，本来就不应该由同一套表示在同一个尺度上硬撑。

所以它把系统拆成两层。

高层：VLM planner 做任务分解 + visual grounding

高层模块输出的不是直接动作，而是结构化计划：

当前子任务指令
目标物体的精确 bounding box

这一步很关键，因为它让“看懂场景”“决定下一步做什么”和“具体机械臂怎么走”分开了。

低层：DiT action expert 专门负责执行

低层动作专家使用 flow-matching Diffusion Transformer，并用 cascaded cross-attention 依次融合：

全局场景上下文
高分辨率目标裁剪区域
技能语义信息

这个设计很工程化，也很合理。

因为精细操作，尤其是 cluttered scene 下抓小物体，最怕的就是：

全局信息不够，动作没有任务上下文
局部信息不够，末端控制又不准

HiVLA 的 cascaded cross-attention 本质上是在解决“先知道大局，再盯住目标，再结合技能”的信息流顺序问题。

为什么这篇论文值得看

它不是简单说“hierarchical 更好”，而是把具身系统里两个经常互相伤害的目标明确拆开了：

保住 VLM 的零样本推理与泛化能力
让动作模块只为稳定执行负责

这比把所有能力压进一个统一策略里更符合工程常识。

适用场景

长时序具身任务
小目标、杂乱场景操作
需要同时保留任务理解能力和高精度执行能力的机器人系统

局限

分层系统通常会引入接口误差，高层 grounding 一旦偏了，低层再强也会执行错对象
真机部署时，感知延迟与动作闭环鲁棒性仍然是关键挑战

4）TIP：蒸馏时不是所有 token 都一样值钱，真正该学的是“犹豫的”和“自信但错的”

arXiv：2604.14084
标题：TIP: Token Importance in On-Policy Distillation
方向：模型蒸馏 / LLM 训练效率 / token selection

这篇论文讨论的是一个很容易被忽略，但非常实用的问题：

在 on-policy distillation 里，学生模型会在自己的 rollout 上学习教师的 token 级监督。默认做法通常是：

所有 token 都训练。

但这其实很浪费。

因为并不是每一个 token 位置都提供同等强度的学习信号。

作者提出了一个很清楚的判断框架：

真正有价值的 token 主要来自两类区域。

第一类：高熵 token

也就是学生模型本身不确定的位置。

如果把学生在位置 (t) 的预测分布记作 (p_t)，那么其熵为：

H(pt)=−∑ipt(i)log⁡pt(i) H(p_t)=-\sum_i p_t(i)\log p_t(i)H(pt)=−i∑pt(i)logpt(i)

其中：

(p_t(i)) 表示第 (t) 个位置生成词表中第 (i) 个 token 的概率
(H(p_t)) 越高，说明学生越拿不准

这类位置天然适合学习，因为学生自己已经暴露出“我不会”。

第二类：低熵但高分歧 token

更有意思的是第二类：

学生看起来很自信，但和老师差得很远。

这可以用 teacher-student divergence 来描述，比如 KL 散度：

DKL(qt∥pt)=∑iqt(i)log⁡qt(i)pt(i) D_{\mathrm{KL}}(q_t\parallel p_t)=\sum_i q_t(i)\log \frac{q_t(i)}{p_t(i)}DKL(qt∥pt)=i∑qt(i)logpt(i)qt(i)

其中：

(q_t) 是教师在位置 (t) 的分布
(p_t) 是学生在位置 (t) 的分布
散度越大，说明学生虽然自信，但自信错了

这类 token 之所以重要，是因为它们携带的是高密度纠错信号。

TIP 的核心结论

作者把 token 按“学生熵”和“师生分歧”两条轴组织成 taxonomy，得到一个很实用的训练认识：

只用熵做筛选，已经是很强的一阶近似
但只看熵不够，因为会漏掉“低熵高分歧”的关键错误 token

实验结果挺硬：

用熵采样保留50%token，效果可匹配甚至超过全 token 训练，同时峰值显存下降47%
只训练不到10%的“低熵高分歧” token，已经能逼近 full-token baseline
在 DeepPlanning 上，仅训练<20%token 的特定区域，甚至超过 full-token OPD

为什么这篇论文值得看

因为它给的是非常可落地的结论。

如果你在做资源受限下的蒸馏，论文给出的不是模糊建议，而是一个直接可编码的策略：

先算学生熵
再补教师分歧
优先训练真正有学习价值的位置

这对显存、吞吐、训练预算都是真金白银的收益。

适用场景

LLM 蒸馏
on-policy self-improvement
受 GPU 预算约束的 teacher-student 训练

局限

依赖教师分布时，需要额外前向成本
token 重要性是否能稳定迁移到多语言、代码、工具调用等场景，还要继续验证

今天这 4 篇放在一起，最值得记住什么？

如果只用一句话概括，我会说：

好系统不是“把所有信息都吃进去”，而是更准确地决定哪些信息该保留、在哪个空间里优化、以及哪一层该负责什么。

这 4 篇论文分别在解决不同层面的资源错配：

长视频理解里，token 和帧预算怎么分
推理强化学习里，优化该发生在条件分布还是更上游的预训练空间
具身系统里，语义规划和动作执行怎么拆
模型蒸馏里，训练预算到底该砸在哪些 token 上

它们背后的共同趋势是：研究越来越少迷信统一大模型包打天下，越来越重视模块边界、优化对象和资源分配。

如果你现在在做系统，今天最值得优先跟哪几篇？

做视频理解 / VLM：优先看One Token per Highly Selective Frame
做 reasoning RL：优先看PreRL / DSRL
做机器人 / 具身操作：优先看HiVLA
做蒸馏 / 降本训练：优先看TIP

如果只能先精读两篇，我会优先推荐：

PreRL / DSRL：因为它在动 post-training 的优化对象本身
TIP：因为它最容易直接变成训练系统里的收益

小结

今天这批论文给人的感觉不是“又来了几个新 benchmark”，而是：

大家开始更认真地处理系统真正贵、真正慢、真正容易失真的地方。

这很重要。

因为下一阶段很多模型能力的提升，未必来自更大的参数量，而更可能来自对这些资源瓶颈的重新拆解。

参考链接

arXiv:2604.14149 — https://arxiv.org/abs/2604.14149
arXiv:2604.14142 — https://arxiv.org/abs/2604.14142
arXiv:2604.14125 — https://arxiv.org/abs/2604.14125
arXiv:2604.14084 — https://arxiv.org/abs/2604.14084

查看全文

http://www.jsqmd.com/news/650548/

别再纠结5G覆盖了！手把手教你用DSS技术，让4G基站原地升级5G（附RRU软件升级实战）

如何用GetQzonehistory轻松备份你的QQ空间历史说说

OmenSuperHub：惠普游戏本性能完全释放指南，告别官方软件束缚

2026做项目常用的正版视频素材网站，都在这篇里了 - Fzzf_23

【生成式AI可观测性白皮书】：从Prompt注入到推理退化，构建具备因果推断能力的智能告警闭环

2026年PVC厂家权威发布榜，PVC管/PVC管件/PVC排水管/PVC给水管/PVC穿线管 - 品牌策略师

跨域问题解决方案 - record

3分钟学会用GetQzonehistory永久保存QQ空间青春记忆

AutoDock-Vina完整指南：快速掌握开源分子对接工具

告别复杂流程！AnythingtoRealCharacters2511动漫转真人超简单

如何用嘎嘎降AI处理医学类论文：医学专业术语保护操作指南 - 还在做实验的师兄

【网络安全】从原理到实战：深入剖析ARP攻击与立体化防御

反射内存交换机使用手册

杭州邹氏建设服务有限公司：临平区房屋拆除哪家好 - LYL仔仔

从信号到策略：解码无线信道关键指标RSRP、SNR、BLER、MCS、CSI的闭环逻辑

新闻摘要生成已进入“毫秒级可控时代”？SITS2026发布首个支持事实溯源的实时摘要API

Ostrakon-VL一键部署教程：10分钟搞定AI视觉语言模型环境

南通一物一码软件定制，为什么开始被白酒企业反复提起

青图沐羽基本信息大揭秘，看看口碑到底靠不靠谱 - 工业设备

AI入门必备工具——Python与核心框架，新手零门槛上手

2026年甘肃/青海不锈钢阀门厂家精选适配工业工程且售后响应迅速 - 深度智识库

深入解析deb打包：从control文件到桌面快捷方式

Python24_async with语法

全域外卖运营服务专业公司选购指南，服务不错的品牌有哪些 - 工业推荐榜

告别烧录器！用S32K144和CAN总线实现汽车ECU远程刷写（附完整代码）

真空均质乳化机（上海新浪）液压升降真空均质乳化机简介 - 品牌推荐大师

【生成式AI混沌工程实战指南】：20年SRE专家亲授5大高危故障注入场景与熔断策略

Android网络调试进阶：巧用adb与tcpdump进行精准抓包分析

性价比高的抖音外卖优质服务机构怎么选，为你深度剖析 - mypinpai

DELL服务器RAID配置与VMware ESXi 6.7安装实战指南