作为程序员,我对「分镜」这种偏美术的活儿一向头大——直到我发现,给图像模型写提示词这件事,本质上和写代码没区别:把需求结构化、约束写清楚、小步迭代,产出就稳定。
这篇就拿一个程序员都能会心一笑的例子(深夜加班的程序员 + 一只会说话的橘猫一起修 bug),讲清楚怎么用 Image-2 一段提示词出一整张带网格、带镜头标注的专业分镜图。不需要任何绘画基础,重点全在提示词的「结构」上。
分镜是什么,为什么值得自动化
拍短片、剪 vlog、做广告 TVC,正式开拍前都得先有分镜:把片子拆成一格一格的画面,标好镜头、动作、转场和音效,团队照着拍。传统做法手绘或在专业软件里一格格摆,门槛高、改一版成本巨大。
而图像模型擅长的恰好是「一次性生成结构化排版的图」。只要提示词写得像一份规格说明(spec),它就能把 9 格画面、景别、说明文字一次性排好。
一、把提示词当成一份 spec 来写
先上能直接用的模板,把故事概念换成你自己的:
根据下面的故事概念,生成一张 16:9 的分镜图(storyboard),按 3 列 x 3 行共 9 格排列:故事概念:一个深夜加班的程序员,遇到一只会说话的橘猫,两人一起把 bug 修好。
整体风格:温暖治愈的 3D 动画质感,柔和夜色灯光,参考皮克斯短片。每一格请清楚标注:
- 镜头景别(全景 / 中景 / 特写)
- 角色动作
- 画面推进 / 转场
- 音效或配乐提示底部加一条信息栏:角色设定、整体情绪基调、每格时间码(约 1.5 秒)。
把这段提示词拆开看,其实就是 5 个「字段」,像定义一个数据结构:
StoryboardSpec {base : 比例 + 网格(16:9,3 列 x 3 行,共 9 格)style : 风格参考(导演 / 影片 / 画风)shots[] : 逐格的 { 景别, 角色动作, 转场, 音效 }visual : 色板 / 光线 / 整体调性footer : 角色设定 + 情绪基调 + 时间码 + 技术规格
}
5 个字段里,shots[] 这个数组是关键。每格都写齐「镜头 + 动作 + 音效」三件套,模型读到这种分镜语言,才会按叙事逻辑去排版,而不是糊成一张普通插画。这跟接口定义一样——字段缺了,下游(模型)就只能瞎猜。
二、参数:比例和清晰度别用默认值
分镜图的可读性,一半取决于这两个参数:
- 比例:影视、广告横版用
16:9;竖屏短视频、小红书用9:16; - 清晰度:选
2K,每格里的小字(景别、时间码)才看得清;要打印贴在拍摄现场就上4K; - 出图大概等 40 秒,整张 9 格一次成型。
两个高频踩坑点,权当「编译错误」记一下:
- 别省略
音效 / 转场字段。只写画面 = 格子之间没有叙事关系,模型当插画处理; - 格数和网格要写死,例如「3x3 共 9 格」「3x2 共 6 格」。不写死,它会随意拼贴,格数飘忽——相当于没加约束的循环。
三、迭代策略:像调 bug 一样收敛
AI 生成有随机性,第一版不可能完美。我的迭代套路,和定位线上问题的思路一模一样——缩小改动范围,单点验证:
-
整体不满意:提示词不动,重新生成一张(换随机种子),相当于「重跑一次」;
-
只有某一格不对:局部重绘,针对性补一句,例如
只重画第 5 格,改成低角度仰拍,其余格子保持不变。
这就是把「全量重建」降级成「热修一格」;
-
想统一换风格(3D 改铅笔手绘):在编辑指令里追加风格描述,不用重写整个故事。
一条反复验证的经验:一次只改一格、一件事。批量改需求的成功率,远低于小步提交。和写代码一个道理——大 PR 难 review,大改动难收敛。
四、沉淀成模板,长期复用
整套流程其实就两步:
- 用「base + style + shots[] + visual + footer」五段式提示词,让模型一次出图;
- 不满意就重抽,或局部重绘改单格。
把提示词存成模板,之后每次只改 故事概念 和 整体风格 两个字段就能复用,跟函数复用一样。不同题材都能套:
| 题材 | 网格 | 要点 |
|---|---|---|
| 电影 / 短片 | 6 格 | 铅笔马克笔制作稿风格 |
| 动画 / 角色短片 | 12 格 | 提示词里强调「角色一致性」 |
| 广告 TVC | 9 格 | 叠加产品照做图生图 |
| 科幻 / 概念 | 12 格 | 重点描述光照与氛围 |
小结
「画分镜」听着是美术活,落到提示词上其实是一道结构化工程题:定义清楚 spec、写死约束、小步迭代。掌握这套五段式模板,不会画画也能稳定产出专业分镜。
文中演示用的是 Image-2.net。方法论是通用的——任何支持中文提示词、可设定比例与清晰度的图像模型,换上去都适用。
