当前位置：首页 > news >正文

像素剧本圣殿保姆级教学：如何用正则表达式批量清洗AI生成剧本格式

news 2026/6/17 16:55:18

像素剧本圣殿保姆级教学：如何用正则表达式批量清洗AI生成剧本格式

1. 为什么需要清洗AI生成的剧本

当你使用像素剧本圣殿生成剧本时，可能会遇到一些小问题：

场景标记格式不统一
角色对话前缺少空格
动作描述中出现多余的空行
特殊符号显示异常

这些问题虽然不影响内容质量，但会让剧本看起来不够专业。手动修改每个问题非常耗时，特别是生成长篇剧本时。

2. 正则表达式基础准备

2.1 什么是正则表达式

正则表达式就像剧本编辑中的"查找替换"功能，但功能强大得多。它可以：

精确匹配特定文本模式
批量替换不规范内容
自动格式化整个文档

2.2 常用正则表达式符号

在开始前，先了解几个基本符号：

\s匹配任何空白字符（空格、制表符、换行符）
\n匹配换行符
[ ]匹配方括号内的任意字符
+匹配前面的元素一次或多次
*匹配前面的元素零次或多次

3. 剧本格式常见问题与解决方案

3.1 统一场景标记格式

AI生成的剧本可能出现多种场景标记：

[场景1] [ 场景2 ] 场景3:

使用这个正则表达式统一格式：

import re text = re.sub(r'\[?\s*场景\s*\d*\s*\]?', '[场景]', text)

3.2 规范角色对话格式

对话前应有角色名和冒号，但AI可能生成：

张三(紧张地) 说...

修复方法：

text = re.sub(r'(\w+)\s*\(.*?\)\s*\n\s*(说|道)', r'\1:', text)

3.3 处理多余空行

连续多个空行影响阅读：

[动作]他站起来 [动作]走向门口

简化空行：

text = re.sub(r'\n{3,}', '\n\n', text)

4. 完整清洗脚本示例

这是一个完整的Python脚本，可以一次性处理所有常见问题：

import re def clean_script(text): # 统一场景标记 text = re.sub(r'\[?\s*场景\s*\d*\s*\]?', '[场景]', text) # 规范角色对话 text = re.sub(r'(\w+)\s*\(.*?\)\s*\n\s*(说|道)', r'\1:', text) # 处理多余空行 text = re.sub(r'\n{3,}', '\n\n', text) # 移除行首尾空格 text = re.sub(r'^\s+|\s+$', '', text, flags=re.MULTILINE) # 统一动作标记 text = re.sub(r'\[?\s*动作\s*\]?', '[动作]', text) return text # 使用示例 with open('raw_script.txt', 'r', encoding='utf-8') as f: raw_text = f.read() clean_text = clean_script(raw_text) with open('clean_script.txt', 'w', encoding='utf-8') as f: f.write(clean_text)

5. 进阶技巧：自定义规则

5.1 添加特殊格式要求

如果你有特殊格式需求，可以扩展清洗脚本。例如，要求所有角色名大写：

text = re.sub(r'^(.*?:)', lambda m: m.group(1).upper(), text, flags=re.MULTILINE)

5.2 处理剧本中的注释

移除AI生成的多余注释：

text = re.sub(r'\(注:.*?\)', '', text)

5.3 自动编号场景

为场景自动添加序号：

scene_count = 1 def number_scenes(match): global scene_count result = f'[场景 {scene_count}]' scene_count += 1 return result text = re.sub(r'\[场景\]', number_scenes, text)