当前位置: 首页 > news >正文

DailyPaper-2025-9-26

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

https://arxiv.org/pdf/2509.21268

Variance-Aware Sampling and large-scale CoT data improve multimodal reasoning models by stabilizing RL fine-tuning and enhancing performance on benchmarks.

定义的 VPS 得分很 naive 很直觉真没看出创新在哪. 然后在 VAS 采样的基础上加了个随机采样, 也没有创新点. 后文详细证明了虽然这个玩意很直觉很人类先验但是是对的.

训练是冷启动 + VAS, 也很 general.

效果看着还行, 而且 checkpoint 和数据集全开源了.

5/10

Seedream 4.0: Toward Next-generation Multimodal Image Generation

https://arxiv.org/abs/2509.20427

Seedream 4.0 is a high-performance multimodal image generation system that integrates text-to-image synthesis, image editing, and multi-image composition using a diffusion transformer and VAE, achieving state-of-the-art results with efficient training and inference.

字节新工作, 总体太工程了我也不是很懂 cv 模型训练, 效果看着是真好, 又 SOTA 了.

7+/10

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

https://arxiv.org/abs/2509.20712

A novel reinforcement learning algorithm, CE-GPPO, reintroduces gradients from clipped tokens to improve the exploration-exploitation balance in training large language models.

PPO 会裁剪目标函数里那种过大和过小的策略改变量的贡献, 然后这个工作在 backward 时候引入了超参数缩放区间之外对梯度的贡献. 这点确实之前没有想到过, 切入点挺好的.

缺点是这超参数是自己设置的, 虽然也做了不同超参数下的消融实验但是如果这玩意是自动的就好了.

6+/10

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

https://arxiv.org/abs/2509.21320

A scientific reasoning foundation model pre-trained on diverse scientific data supports multiple tasks and enhances cross-domain generalization and fidelity through specialized training techniques.

上海 AI Lab 的工作, 感觉可以看作他们 2507.17512 的一个小分支的延申和实践.

和 2507.17512 一起可以给 8-/10.

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

https://arxiv.org/abs/2509.19803

A curriculum reinforcement learning framework dynamically adjusts training sample difficulty based on reward variance, improving LLM performance on mathematical reasoning tasks.

这个工作相当于把 Curriculum RL 动态了.

它提出说如果你一个问题对于模型过于简单或者过难, 它得分的期望就约等于 0/1, 如果得分方差过大那就可以说明适合这个模型当前训练阶段. 然后根据这个方差维护了一个 memory bank 来动态采样去训这个东西.

6+/10

http://www.jsqmd.com/news/4201/

相关文章:

  • qq
  • 实用指南:老题新解|素数对
  • 人文领域的创新乏力:当价值内卷遇上元人文AI的破局之光
  • SimCC: a Simple Coordinate Classification Perspective for Human Pose Estimation
  • 10.1.1 启用python达成第一个遗传算法
  • [iOS] OC高级编程 - 引用计数 (1) - 详解
  • Docker Docker Compose 完整入门与实用技巧 - 教程
  • PySide6 之鼠标事件写字板
  • 深入解析:golang基础语法(三)常量、指针、别名、关键字、运算符、字符串类型转换
  • 单B细胞技术如何实现兔单抗高通量高特异制备
  • HP激光墨盒换墨粉
  • 实用指南:Golang学习笔记: 常用标准库
  • AI论文速读 | 当大语言模型遇上时间序列:大语言模型能否执行多步时间序列推理与推断 - 指南
  • unordered_map性能被吊打!我用基数树让内存池性能暴涨几十倍的秘密
  • 详细介绍:《 Linux 点滴漫谈: 一 》开源之路:Linux 的历史、演进与未来趋势
  • 深入解析:TENGJUN“二合一(2.5MM+3.5MM)”耳机插座:JA10-BPD051-A;参数与材质说明
  • CentOS 9服务器版 部署Zabbix7.0 server端 - 详解
  • 深入解析:Apache 生产环境操作与 LAMP 搭建指南
  • JAVA第一天
  • C# Avalonia 15- Animation- CustomEasingFunction
  • US$189 VVDI2 BMW FEM amp; BDC Functions Authorization Service With Ikeycutter Condor
  • nginx平滑升级+location案例 - 教程
  • 深入解析:装备制造企业支撑智能制造的全生命周期数据治理实践
  • 深入解析:P4779 【模板】单源最短路径(标准版)
  • US$36 35160WT Adapter for CG Pro 9S12 Programmer
  • [更新完毕]2025华为杯B题数学建模研赛B题研究生数学建模思路代码文章成品:无线通信系统链路速率建模 - 指南
  • 模式组合应用-享元模式 - 详解
  • 【Spring Boot】自定义starter
  • redis-bitMap类型基本命令
  • PrintNightmare漏洞仍未终结:深入解析PnP配置绕过与防护方案