当前位置：首页 > news >正文

批量处理中文口语化表达｜基于科哥开发的FST ITN-ZH镜像方案

news 2026/3/26 15:37:39

批量处理中文口语化表达｜基于科哥开发的FST ITN-ZH镜像方案

在日常语音识别、客服录音转写、智能助手交互等场景中，我们常常会遇到大量非标准化的中文口语表达。比如“二零零八年八月八日”“早上八点半”“一百二十三”“一点二五元”——这些说法对人来说自然流畅，但若要用于数据录入、结构化分析或系统对接，就必须转换成统一格式：2008-08-08、8:30a.m.、123、¥1.25。

这就是**中文逆文本标准化（Inverse Text Normalization, ITN）**的核心任务：将自然语言中的数字、时间、货币等表达，还原为机器可读的标准形式。

而今天我们要介绍的，是由开发者“科哥”基于 FST 技术二次开发构建的FST ITN-ZH 中文逆文本标准化 WebUI 镜像。它不仅支持单条文本转换，更关键的是提供了批量处理能力，非常适合需要高效清洗大量口语化文本的企业级应用。

本文将带你从零开始，掌握如何部署、使用并最大化发挥这套工具的价值，尤其聚焦于批量处理中文口语表达的实际操作与工程优化建议。

1. 为什么我们需要中文 ITN？

你有没有试过让AI听一段电话录音，然后提取出“客户说的金额”或“预约时间”？结果往往是这样的：

“他提到去年花了三千二百五十块，准备三月五号去做检查。”

看起来没问题，但如果要把这个信息存进数据库，你就得手动把“三千二百五十”改成3250，“三月五号”改成3/5或2025-03-05。这还只是一个人的一句话。如果是上千条通话记录呢？

问题就出在：语音识别（ASR）只负责“听见”，不负责“规整”。

而 ITN 的作用，正是填补这一空白——它是 ASR 后处理的关键一环，专门解决以下几类常见问题：

口语表达	标准化结果	应用价值
二零零八年八月八日	2008年08月08日	时间字段入库
早上八点半	8:30a.m.	统一时间格式
一百二十三	123	数值计算基础
一点二五元	¥1.25	财务数据规范
京A一二三四五	京A12345	车牌识别归一

没有 ITN，后续的数据分析、自动化流程、报表生成都会变得异常困难。而有了像 FST ITN-ZH 这样的工具，这一切都可以自动完成。

2. FST ITN-ZH 镜像简介：轻量、高效、开箱即用

2.1 什么是 FST ITN-ZH？

FST ITN-ZH 是一个基于**有限状态转换器（Finite State Transducer, FST）**实现的中文逆文本标准化系统，由社区开发者“科哥”在其原始版本基础上进行了 WebUI 二次开发，并打包为 Docker 镜像，极大降低了使用门槛。

其核心优势在于：

纯规则驱动：无需大模型推理，速度快、资源消耗低
高准确率：针对中文数字、日期、时间、货币等常见类型做了精细建模
支持多种变体：兼容简体（一）、大写（壹）、方言（幺、两）等多种表达
提供图形界面：无需编程即可操作，适合非技术人员使用
支持批量处理：可上传.txt文件一次性处理成千上万行数据

2.2 镜像基本信息

项目	内容
镜像名称	FST ITN-ZH 中文逆文本标准化 (ITN) webui二次开发构建by科哥
访问端口	`7860`
启动命令	`/bin/bash /root/run.sh`
开发者	科哥（微信：312088415）
许可协议	Apache License 2.0（需保留版权信息）

该镜像适用于 CSDN 星图平台或其他支持容器化部署的 AI 环境，一键拉取即可运行。

3. 快速部署与访问

3.1 启动服务

如果你已经获取了该镜像，请在服务器终端执行以下命令启动服务：

/bin/bash /root/run.sh

此脚本会自动启动 WebUI 服务，默认监听7860端口。

3.2 访问 Web 界面

服务启动后，在浏览器中输入：

http://<你的服务器IP>:7860

即可看到如下界面（参考官方截图）：

界面采用紫蓝渐变风格，简洁直观，包含两个主要功能标签页：** 文本转换** 和📦 批量转换。

4. 单条文本转换：快速验证效果

虽然本文重点是“批量处理”，但我们先通过单条文本转换来熟悉基本功能。

4.1 操作步骤

打开页面，点击顶部的「文本转换」标签
在左侧输入框中输入待转换的中文口语表达，例如：
```
二零零八年八月八日早上八点半
```
点击「开始转换」按钮
右侧输出框将显示结果：
```
2008年08月08日 8:30a.m.
```

4.2 支持的转换类型一览

系统内置了多个预设示例按钮，点击即可快速填充测试内容：

类型	输入示例	输出结果
日期	二零一九年九月十二日	2019年09月12日
时间	下午三点十五分	3:15p.m.
数字	一千九百八十四	1984
货币	一百美元	$100
分数	五分之一	1/5
度量	二十五千克	25kg
数学	负二	-2
车牌	京A一二三四五	京A12345

这些示例覆盖了绝大多数常见的口语化表达场景，足以满足日常需求。

5. 批量转换实战：高效处理海量数据

这才是真正体现 FST ITN-ZH 实用价值的地方——批量处理成千上万条口语化文本。

5.1 准备输入文件

创建一个.txt文件，每行一条需要转换的文本。例如input.txt：

二零零八年八月八日 一百二十三 早上八点半 一点二五元 二十五千克 负二 京A一二三四五 这件事发生在二零一九年九月十二日的晚上，大概八点半左右，涉及金额为一万二千元。

注意：

每行独立处理
支持长文本混合多种表达
编码建议使用 UTF-8

5.2 执行批量转换

切换到「📦 批量转换」标签页
点击「上传文件」按钮，选择你准备好的.txt文件
点击「批量转换」按钮
系统会在几秒内完成处理（具体时间取决于文件大小）
转换完成后，点击「下载结果」按钮，获取标准化后的文本文件

5.3 查看输出结果

下载的文件名为类似output_20250405_142312.txt的时间戳命名格式，内容如下：

2008年08月08日 123 8:30a.m. ¥1.25 25kg -2 京A12345 这件事发生在2019年09月12日的晚上，大概8:30左右，涉及金额为12000元。

可以看到，所有口语化表达都被精准地转换成了标准格式，且上下文语义完整保留。

6. 高级设置详解：按需定制转换行为

FST ITN-ZH 提供了三个关键开关，允许你根据业务需求灵活调整转换策略。

6.1 转换独立数字

开启：幸运一百→幸运100
关闭：幸运一百→幸运一百

适用场景：

若“一百”是品牌名或固定搭配，建议关闭
若希望所有数字都转为阿拉伯数字，建议开启

6.2 转换单个数字 (0-9)

开启：零和九→0和9
关闭：零和九→零和九

说明：

控制是否将“零”“一”“二”……这类单字数字也进行转换
对车牌、编号类场景尤为重要

6.3 完全转换'万'

开启：六百万→6000000
关闭：六百万→600万

区别：

开启后彻底展开“万”单位，适合财务统计
关闭则保留“万”字，更适合阅读友好型输出

你可以根据实际用途组合使用这三个选项，达到最佳转换效果。

7. 使用技巧与最佳实践

7.1 技巧一：长文本也能精准处理

系统不仅能处理单一表达，还能识别并转换复合型长句中的多个目标项。

例如：

输入: 我在一九九九年花了三万两千块钱买了辆桑塔纳，那年我才二十岁。 输出: 我在1999年花了32000块钱买了辆桑塔纳，那年我才20岁。

这种能力特别适合处理访谈记录、客服对话、语音笔记等真实场景下的自由文本。

7.2 技巧二：利用“保存到文件”功能持久化结果

除了下载，还可以点击「保存到文件」按钮，将结果直接写入服务器本地文件，路径通常位于/root/output/目录下。

这对于自动化脚本调用或定时任务非常有用。

7.3 技巧三：结合外部脚本实现自动化流水线

虽然 WebUI 适合人工操作，但也可以通过模拟 HTTP 请求的方式实现程序化调用。

例如使用 Python 发送 POST 请求到后端接口（假设已知 API 地址）：

import requests url = "http://localhost:7860/api/itn" data = {"text": "二零零八年八月八日"} response = requests.post(url, json=data) print(response.json()["result"]) # 输出: 2008年08月08日

未来如果开发者开放 API 接口文档，将进一步提升集成效率。