南洋理工团队发布分层Agent框架:一句话生成短剧,质量可控但降本仍待突破
【导语:近年来视频基础模型提升了自动化短片生成能力,但现有短剧生产存在叙事、空间和质量控制方面的不足。南洋理工大学团队发布“一句话一短剧”分层Agent框架,实现一句话生成短剧,在多方面优于现有流水线,但大规模部署仍面临成本、人机协同和音频授权等问题。】
现有短剧生产依靠大语言模型的one - shot生成和松散耦合工作流,存在叙事节奏偏弱、空间一致性不足、质量控制不成熟等问题。南洋理工大学研究团队及其合作者发布的分层Agent框架“一句话一短剧”,用户只需提供一句创意,就能得到制作完整、画面精美的个性化短剧内容。
整个自动化视频生产流程分为故事生成、视觉素材与提示词生成、通过3D场景锚定实现一致的首帧生成、后期制作四步,审阅环节贯穿始终进行质量控制。在故事生成阶段,Agent通过检索和多Agent辩论生成结构化故事和分镜脚本,并调用节奏模式库和因果逻辑库搭建可控短剧框架。
视觉素材与提示词生成时,Agent先生成场景全景图和角色参考图,再为每个片段生成首帧与视频提示词,审阅模块会检查空间关系和道具连贯性。通过3D场景锚定实现一致的首帧生成中,Agent还原场景空间,统一人物走位、镜头位置和场景关系,保证跨镜头空间一致性。后期制作则统一处理转场、配乐和人声衔接,整合视频片段。
研究团队构建了短剧评测基准Short - Drama - Bench,覆盖7大类型、17个细分题材,共生成约239分钟视频。评价体系分为VBench衡量通用视频质量,ViStoryBench评估故事可视化效果,还设置8个短剧指标。定性结果显示,该框架在跨片段视觉连续性、剧情节奏和转场处理上更优;定量结果表明,相比MovieAgent、Toonflow等竞品,该框架在多项指标上整体领先。
该Agent框架虽有优势,但距离大规模部署存在现实限制。生成成本方面,One Sentence, One Drama平均API成本约为25 - 27美元/分钟,高于Toonflow的约21.53美元/分钟,生成一部约10分钟短剧需74 - 90分钟,降本是必须解决的问题。
人机协同支持方面,当前以自动生成为主,未来可通过交互式界面向用户开放审查分数和诊断反馈。音频授权问题上,当前BGM库采用免版税或可商用音乐,限制了风格和情绪表达多样性,接入更大规模授权音乐库可拓展商业应用场景。
编辑观点:“一句话一短剧”框架为短剧自动化生成带来了新突破,优势显著。但成本、人机协同和音频授权等问题制约其大规模应用,未来需在这些方面改进,以释放更大潜力。
