当前位置: 首页 > news >正文

南洋理工团队发布分层Agent框架:一句话生成短剧,质量可控但降本仍待突破

【导语:近年来视频基础模型提升了自动化短片生成能力,但现有短剧生产存在叙事、空间和质量控制方面的不足。南洋理工大学团队发布“一句话一短剧”分层Agent框架,实现一句话生成短剧,在多方面优于现有流水线,但大规模部署仍面临成本、人机协同和音频授权等问题。】


分层Agent框架打破短剧生成瓶颈

现有短剧生产依靠大语言模型的one - shot生成和松散耦合工作流,存在叙事节奏偏弱、空间一致性不足、质量控制不成熟等问题。南洋理工大学研究团队及其合作者发布的分层Agent框架“一句话一短剧”,用户只需提供一句创意,就能得到制作完整、画面精美的个性化短剧内容。

四步流程实现自动化视频生产

整个自动化视频生产流程分为故事生成、视觉素材与提示词生成、通过3D场景锚定实现一致的首帧生成、后期制作四步,审阅环节贯穿始终进行质量控制。在故事生成阶段,Agent通过检索和多Agent辩论生成结构化故事和分镜脚本,并调用节奏模式库和因果逻辑库搭建可控短剧框架。

视觉素材与提示词生成时,Agent先生成场景全景图和角色参考图,再为每个片段生成首帧与视频提示词,审阅模块会检查空间关系和道具连贯性。通过3D场景锚定实现一致的首帧生成中,Agent还原场景空间,统一人物走位、镜头位置和场景关系,保证跨镜头空间一致性。后期制作则统一处理转场、配乐和人声衔接,整合视频片段。

评测显示框架优势明显

研究团队构建了短剧评测基准Short - Drama - Bench,覆盖7大类型、17个细分题材,共生成约239分钟视频。评价体系分为VBench衡量通用视频质量,ViStoryBench评估故事可视化效果,还设置8个短剧指标。定性结果显示,该框架在跨片段视觉连续性、剧情节奏和转场处理上更优;定量结果表明,相比MovieAgent、Toonflow等竞品,该框架在多项指标上整体领先。

大规模部署仍面临挑战

该Agent框架虽有优势,但距离大规模部署存在现实限制。生成成本方面,One Sentence, One Drama平均API成本约为25 - 27美元/分钟,高于Toonflow的约21.53美元/分钟,生成一部约10分钟短剧需74 - 90分钟,降本是必须解决的问题。

人机协同支持方面,当前以自动生成为主,未来可通过交互式界面向用户开放审查分数和诊断反馈。音频授权问题上,当前BGM库采用免版税或可商用音乐,限制了风格和情绪表达多样性,接入更大规模授权音乐库可拓展商业应用场景。

编辑观点:“一句话一短剧”框架为短剧自动化生成带来了新突破,优势显著。但成本、人机协同和音频授权等问题制约其大规模应用,未来需在这些方面改进,以释放更大潜力。

http://www.jsqmd.com/news/898499/

相关文章:

  • 从氛围感到硬实力:程序员面试准备的核心陷阱与实战清单
  • 想定制卫浴行业批零兼营跨境营销站该选谁? WaiMaoYa 外贸鸭提供一站式建站服务 - 外贸独立站运营
  • 告别手动拷贝!用VS2019 Installer Projects插件,一键打包C# Winform程序和MySQL数据库
  • 非理想RIS辅助OSTBC系统性能分析与优化:从理论建模到低复杂度算法
  • 仅限内部技术团队流通:ChatGPT角色扮演安全边界白皮书(含GDPR/等保2.0双合规校验表)
  • Pixelle-Video:AI全自动短视频引擎,让视频创作像聊天一样简单
  • 使用curl命令直接测试Taotoken聊天接口的快速入门指南
  • 想制作水产品行业原生 B2B+B2C 双模一体外贸官网选哪家? WaiMaoYa 外贸鸭是专业的出海建站服务商 - 外贸营销驿站
  • MapleStory游戏资源编辑终极指南:从新手到专家的完整教程
  • 想运营陶瓷行业展示 + 询盘 + 零售外贸网站选哪家? WaiMaoYa 外贸鸭擅长打造高转化外贸站点 - 外贸独立站运营
  • 避坑指南:CANopen主从站PDO映射配置,为什么你的数据总对不上?
  • ChatGPT餐厅推荐生成失效真相(实测137家商户数据):当LLM遇上POI冷启动、口味漂移与节假日效应
  • 如何通过 Taotoken 模型广场快速选型并获取适合文本总结任务的大模型
  • 想建设五金行业询盘 + 零售 一站全搞定海外网站找哪家合作? WaiMaoYa 外贸鸭深耕外贸建站多年 - 外贸营销驿站
  • 告别踩坑!Windows 10/11 本地一键部署RocketMQ 4.8.0及控制台(保姆级图文)
  • 构建自动化内容引擎:从API集成到工作流设计的实战指南
  • AI芯片分布式系统:从固定代理到可插拔内核:DLOS Kernel v1.3 中的微内核与热插拔 Agent 系统
  • 告别驱动烦恼:在Ubuntu 16.04上一步步搞定CY7C68013A USB开发板的Linux环境
  • 别再瞎调了!Unity Canvas Scaler三种模式实战对比,附可运行的测试项目源码
  • 利用ToF相机深度失真实现材料分类:原理、实践与挑战
  • harness 与 hermes-agent 应用层次、用户与场景
  • 想运营储能行业原生 B2B+B2C 双模一体外贸网站找哪家合作? WaiMaoYa 外贸鸭是专业的出海建站服务商 - 外贸营销驿站
  • 基于MCP协议为AI智能体构建文件风险感知系统
  • Brew 包管理工具高效开发场景实战
  • 电话号码地理定位技术方案:基于Web服务的实时位置映射系统
  • 如何永久备份微信聊天记录?3步实现数据自主与隐私保护
  • 电脑加域后别慌!手把手教你找回Navicat里丢失的数据库连接(附注册表工具)
  • Spring Boot项目里,用CompletableFuture优化这3个常见业务场景(查询聚合、并行调用、超时控制)
  • 别再到处拼教程了!OpenClaw+88api一站式配置指南(手把手教你改配置、填Key、验连通)
  • vss-performance 长任务Panic隔离与协程恢复