当前位置：首页 > news >正文

把「画分镜」当成写代码：用一段结构化提示词让 Image-2 一次生成 9 格脚本

news 2026/6/14 13:25:50

作为程序员，我对「分镜」这种偏美术的活儿一向头大——直到我发现，给图像模型写提示词这件事，本质上和写代码没区别：把需求结构化、约束写清楚、小步迭代，产出就稳定。

这篇就拿一个程序员都能会心一笑的例子（深夜加班的程序员 + 一只会说话的橘猫一起修 bug），讲清楚怎么用 Image-2 一段提示词出一整张带网格、带镜头标注的专业分镜图。不需要任何绘画基础，重点全在提示词的「结构」上。

分镜是什么，为什么值得自动化

拍短片、剪 vlog、做广告 TVC，正式开拍前都得先有分镜：把片子拆成一格一格的画面，标好镜头、动作、转场和音效，团队照着拍。传统做法手绘或在专业软件里一格格摆，门槛高、改一版成本巨大。

而图像模型擅长的恰好是「一次性生成结构化排版的图」。只要提示词写得像一份规格说明（spec），它就能把 9 格画面、景别、说明文字一次性排好。

一、把提示词当成一份 spec 来写

先上能直接用的模板，把故事概念换成你自己的：

根据下面的故事概念，生成一张 16:9 的分镜图（storyboard），按 3 列 x 3 行共 9 格排列：故事概念：一个深夜加班的程序员，遇到一只会说话的橘猫，两人一起把 bug 修好。
整体风格：温暖治愈的 3D 动画质感，柔和夜色灯光，参考皮克斯短片。每一格请清楚标注：
- 镜头景别（全景 / 中景 / 特写）
- 角色动作
- 画面推进 / 转场
- 音效或配乐提示底部加一条信息栏：角色设定、整体情绪基调、每格时间码（约 1.5 秒）。

把这段提示词拆开看，其实就是 5 个「字段」，像定义一个数据结构：

StoryboardSpec {base    : 比例 + 网格（16:9，3 列 x 3 行，共 9 格）style   : 风格参考（导演 / 影片 / 画风）shots[] : 逐格的 { 景别, 角色动作, 转场, 音效 }visual  : 色板 / 光线 / 整体调性footer  : 角色设定 + 情绪基调 + 时间码 + 技术规格
}

5 个字段里，shots[] 这个数组是关键。每格都写齐「镜头 + 动作 + 音效」三件套，模型读到这种分镜语言，才会按叙事逻辑去排版，而不是糊成一张普通插画。这跟接口定义一样——字段缺了，下游（模型）就只能瞎猜。

二、参数：比例和清晰度别用默认值

分镜图的可读性，一半取决于这两个参数：

比例：影视、广告横版用 16:9；竖屏短视频、小红书用 9:16；
清晰度：选 2K，每格里的小字（景别、时间码）才看得清；要打印贴在拍摄现场就上 4K；
出图大概等 40 秒，整张 9 格一次成型。

两个高频踩坑点，权当「编译错误」记一下：

别省略 音效 / 转场 字段。只写画面 = 格子之间没有叙事关系，模型当插画处理；
格数和网格要写死，例如「3x3 共 9 格」「3x2 共 6 格」。不写死，它会随意拼贴，格数飘忽——相当于没加约束的循环。

三、迭代策略：像调 bug 一样收敛

AI 生成有随机性，第一版不可能完美。我的迭代套路，和定位线上问题的思路一模一样——缩小改动范围，单点验证：

整体不满意：提示词不动，重新生成一张（换随机种子），相当于「重跑一次」；
只有某一格不对：局部重绘，针对性补一句，例如

只重画第 5 格，改成低角度仰拍，其余格子保持不变。

这就是把「全量重建」降级成「热修一格」；
想统一换风格（3D 改铅笔手绘）：在编辑指令里追加风格描述，不用重写整个故事。

一条反复验证的经验：一次只改一格、一件事。批量改需求的成功率，远低于小步提交。和写代码一个道理——大 PR 难 review，大改动难收敛。

四、沉淀成模板，长期复用

整套流程其实就两步：

用「base + style + shots[] + visual + footer」五段式提示词，让模型一次出图；
不满意就重抽，或局部重绘改单格。

把提示词存成模板，之后每次只改 故事概念 和 整体风格 两个字段就能复用，跟函数复用一样。不同题材都能套：

题材	网格	要点
电影 / 短片	6 格	铅笔马克笔制作稿风格
动画 / 角色短片	12 格	提示词里强调「角色一致性」
广告 TVC	9 格	叠加产品照做图生图
科幻 / 概念	12 格	重点描述光照与氛围