PaddleOCR 多语言识别完整使用教程(适配你的 C++/Qt 部署场景)
PaddleOCR 多语言识别完整使用教程(适配你的 C++/Qt 部署场景)
一、核心原理:多语言仅替换「识别 Rec 模型 + 对应字典」
PaddleOCR 三段流水线分工:
- Det 文本检测模型:通用,所有语种共用一套 DB 检测模型(文字定位不受语言影响)
- Cls 方向分类:通用,判断文字是否倒置,全部语种通用
- Rec 文字识别:语种专属,每种语言独立推理模型 + 配套字符字典 txt
关键规则:Rec 模型与字典强绑定,训练时用哪套字典,推理必须完全配套,顺序不能乱,否则文字全部错乱。
二、前置准备:下载多语言推理模型 + 字典文件
1. 主流语种识别模型(PP-OCRv4/v5)
官方区分两大系列:
- 拉丁大合集 latin:一套模型识别英 / 法 / 德 / 西 / 葡 / 意等几十种拉丁字母语言
- 单语种独立模型:中文 ch、日语 ja、韩语 ko、俄语 ru、泰语 th、希腊 el 等 | 语种代码 | 模型名称 | 适用范围 | |----|----|----| | ch | ch_PP-OCRv4_rec | 简体中文 + 数字英文混合 | | en | en_PP-OCRv4_rec | 纯英文、数字 | | latin | latin_PP-OCRv5_rec | 英法德西葡意等全部拉丁系语言 | | ja | ja_PP-OCRv4_rec | 日语(平假名 + 片假名 + 汉字) | | ko | ko_PP-OCRv4_rec | 韩语谚文 | | ru/eslav | eslav_PP-OCRv4_rec | 俄语、乌克兰西里尔文字 | | th | th_PP-OCRv4_rec | 泰语 |
