当前位置: 首页 > news >正文

LongVideoAgent:多智能体推理与长视频

近期,多模态大语言模型及借助工具进行长视频问答的系统在小时级剧集推理方面展现出巨大潜力。然而,许多方法仍将内容压缩为有损摘要或依赖有限工具集,这削弱了时间定位能力并遗漏了细粒度线索。

我们提出一种多智能体框架:其中主控大语言模型负责协调一个定位代理以确定问题相关片段,以及一个视觉代理以提取目标文本化观测信息。

主控智能体在步数限制下进行规划,并通过强化学习训练以鼓励简洁、准确且高效的多智能体协作。该设计通过定位机制帮助主控智能体聚焦相关片段,以视觉细节补充字幕信息,并产生可解释的任务轨迹。

在我们从TVQA/TVQA+整合构建的剧集级数据集LongTVQA与LongTVQA+上,我们的多智能体系统显著优于强非智能体基线模型。实验同时表明,强化学习能进一步强化受训智能体的推理与规划能力。

原文链接:https://arxiv.org/html/2512.20618v1

http://www.jsqmd.com/news/216733/

相关文章:

  • 突破性能极限:如何用Z-Image-Turbo预置镜像实现2K高清输出
  • 游戏开发者的秘密武器:快速集成Z-Image-Turbo角色概念生成
  • 多地布局:直线模组与直线电机服务团队如何覆盖全国
  • AI辅助漫画创作:Z-Image-Turbo分镜生成专用环境搭建指南
  • C语言float转十六进制
  • 冥想第一千七百五十六天(1756)
  • AI艺术展:用Z-Image-Turbo快速生成系列主题作品的策展指南
  • Z-Image-Turbo模型压测全攻略:预装监控工具的云端测试环境
  • 国内网络准入系统排行榜你知道吗?2025六大主流网络准入系统推荐
  • 游戏开发捷径:用阿里通义Z-Image-Turbo快速生成角色概念图
  • Java企业级风控实战:对接天远多头借贷行业风险版API构建信贷评分引擎
  • 图吧工具箱 V 2026.01:专业硬件检测工具
  • Z-Image-Turbo模型剖析:免搭建的云端实验环境带你深入理解
  • 冥想第一千七百五十七天(1757)
  • 跨平台开发方案:在Unity中集成Z-Image-Turbo图像生成功能
  • 阿里通义Z-Image-Turbo WebUI扩展开发:快速添加自定义功能
  • 冥想第一千七百五十八天(1758)
  • 10分钟玩转阿里通义Z-Image-Turbo:零基础搭建你的AI绘画工坊
  • 【学习笔记】《道德经》第63章
  • 【std::map】遍历方式汇总
  • Z-Image-Turbo多版本管理:一键切换不同模型配置的云端方案
  • 揭秘AI造相:如何用云端GPU快速体验Z-Image-Turbo的魔力
  • 如何解决 pip install 网络报错 ERROR: Could not find a version that satisfies the requirement requests
  • 玩转AI造相:科哥定制版Z-Image-Turbo镜像一键部署指南
  • typescript-数组和元组
  • 权限分级+加密存储+操作追溯,筑牢会计档案安全防线
  • B站视频列表与详情数据API调用完全指南
  • 告别本地渲染:云端GPU助力AI图像批量生成
  • 信创背景下企业可观测平台选型指南
  • 基于Springboo和vue开发的企业批量排班系统人脸识别考勤打卡系统