当前位置：首页 > news >正文

基于GLM-OCR的智能UI与文档自动化测试框架设计与实战

news 2026/6/23 21:59:36

1. 项目概述：当UI测试遇上智能OCR

在软件测试这个行当里干了十几年，我见过太多因为UI文本、文档内容校验不准而导致的线上事故。一个按钮的文案写错了，一个弹窗的提示语和设计稿对不上，一份用户协议更新了但自动化脚本没跟上——这些看似不起眼的“小问题”，往往就是用户体验的“大杀器”，轻则引发客诉，重则导致合规风险。传统的自动化测试，无论是基于Selenium的UI自动化，还是基于图像比对的视觉测试，在处理文本内容验证时，要么依赖脆弱的XPath/CSS选择器（UI一变就挂），要么只能做像素级的图像比对（对字体、字号、排版极其敏感，误报率高），始终不够优雅和健壮。

直到我开始把GLM-OCR这类新一代的智能OCR技术引入到测试流程中，局面才真正打开。这不仅仅是把图片上的字“认”出来那么简单。GLM-OCR背后的大模型能力，让它对模糊、倾斜、复杂背景、艺术字体甚至手写体都有不错的识别率，更重要的是，它能结合上下文理解语义。这意味着，我们的自动化脚本可以不再死磕于某个固定的DOM元素位置，而是直接问：“在当前屏幕上，有没有出现‘确认支付’这个按钮？”或者“这份PDF合同里，甲方的名称是不是‘某某科技有限公司’？”——测试的视角从“机械定位”升级到了“智能理解”。

这个项目的核心，就是构建一套基于GLM-OCR的自动化验证框架，让它无缝集成到我们的CI/CD流水线中，自动、准确、可靠地校验软件界面上的所有文本元素以及相关文档（如用户手册、合同、报表）的内容正确性。它适合所有被UI文本验证、文档内容核对折磨过的测试工程师、开发工程师以及质量保障团队。无论你是想提升现有自动化测试的健壮性，还是为验收测试、回归测试寻找新的武器，这套思路都能给你带来实实在在的效率和可靠性提升。

2. 为什么是GLM-OCR？——技术选型背后的深度考量

在决定采用GLM-OCR之前，我们团队也评估过不少方案。市面上OCR引擎很多，从老牌的开源Tesseract，到各大云厂商提供的OCR API（如百度、阿里云、腾讯云），再到一些新兴的专项OCR工具。最终选择GLM-OCR，是基于软件测试这个特定场景下的几个核心需求做的综合权衡。

2.1 测试场景对OCR的独特挑战

首先，我们必须正视软件测试中的OCR应用场景有何不同：

多样性极高：测试的软件可能运行在Web、桌面端、移动端（iOS/Android），甚至嵌入式设备屏幕上。截图来源多样，分辨率、色彩空间、压缩质量参差不齐。
文本状态复杂：UI文本可能是标准系统字体，也可能是自定义字体；可能有抗锯齿效果；文字颜色可能与背景对比度低（如灰色文字）；文字可能叠加在动态背景或图片上。
需要语义理解：我们不仅要识别出文字，还要判断文字的含义是否正确。例如，识别出“登录”和“登陆”在字形上可能只差一点，但语义上天差地别。传统的OCR只管字形，不管对错。
对准确率和召回率要求苛刻：在自动化测试中，误报（把对的报成错的）和漏报（把错的漏过去）都会严重消耗团队精力，破坏对自动化测试的信任。我们需要的是极高的精确率。
处理速度与成本：测试用例可能成千上万，OCR作为其中一环，不能成为性能瓶颈。同时，从成本考虑，完全依赖商用API可能是一笔不小的持续开销。

2.2 GLM-OCR的破局优势

基于以上挑战，GLM-OCR展现出了其独特的优势：

强大的泛化与抗干扰能力：得益于在大规模多模态数据上的预训练，GLM-OCR对低质量图像、非常规字体、复杂版面的适应性远超传统OCR引擎。在测试中，我们经常遇到开发环境下的临时截图、低分辨率的模拟器截图，GLM-OCR的识别稳定性令人印象深刻。
内置的语义纠错与上下文关联：这是其作为大模型衍生OCR的核心竞争力。它不仅能识别字符，还能在一定程度上根据上下文判断最可能的词汇。例如，在金融类App的测试中，对于“年化收益率”后面的一串数字，即使某个数字有点模糊，模型也能根据金融文本的常识进行合理推断，这大大降低了因图像瑕疵导致的误识别。
灵活部署与成本控制：GLM系列模型通常提供多种规模的版本，从需要GPU的大模型到经过蒸馏、量化后可在CPU上运行的轻量版。我们可以根据测试任务的精度和速度要求，选择本地部署合适的模型，避免了每次调用都产生API费用，特别适合在CI/CD环境中高频次使用。
可定制化与持续学习的潜力：虽然开箱即用效果就不错，但GLM-OCR框架通常允许我们用自己的数据（例如，你们公司产品特有的UI组件、专属字体、行业术语）进行微调（Fine-tuning）。这意味着我们可以打造一个越来越懂我们自家产品的“专属OCR质检员”。

注意：选择GLM-OCR并不意味着它是万能药。对于追求极致速度的单元测试，或者对纯文本HTML内容进行校验，直接解析DOM仍然是更优选择。GLM-OCR的核心价值在于处理那些无法直接获取文本层信息的场景，如图片验证码、自定义绘制的图表、扫描版PDF、以及需要语义核对的复杂文档。

3. 框架设计与核心模块拆解

一套可用的自动化验证系统，不能只是一个孤立的OCR调用。我们需要围绕GLM-OCR构建一个完整的、可维护的测试框架。下图展示了我们设计的核心架构：

（注：此处用文字描述架构图，因禁止使用Mermaid）

整个框架分为四个层次：

输入与采集层：负责从不同来源（Web浏览器、移动设备、桌面应用、文件系统）获取待验证的“图像”或“文档”。对于UI，主要是截图；对于文档，则是PDF、Word、图片等文件的加载。
核心处理层：这是框架的大脑。首先调用GLM-OCR引擎对输入进行识别，得到原始文本和位置信息。然后，通过“文本预处理”模块（如去除空格、统一标点）进行清洗。最后，也是最关键的一步，由“验证逻辑执行器”根据预设的校验规则（如完全匹配、包含关键字、正则表达式匹配、语义相似度计算）进行判断。
规则与数据管理层：测试用例不是硬编码在脚本里的。我们将“在什么位置/什么条件下，应该出现什么文本”抽象成可配置的验证规则。这些规则和对应的期望结果（Expected Results）被管理在测试数据文件（如YAML、JSON）或测试管理工具中，实现脚本与数据的分离，便于维护。
输出与集成层：将验证结果（成功/失败）以标准格式（如JUnit XML、Allure报告数据）输出，并集成到CI/CD平台（如Jenkins、GitLab CI），实现测试报告的自动生成和流水线的门禁控制。

3.1 核心模块一：智能截图与区域定位

在UI测试中，我们并不总是需要识别整个屏幕。全屏识别速度慢，且容易受无关区域干扰。因此，智能定位待检区域是关键。

基于控件属性的定位：与UI自动化框架（如Selenium、Appium）结合。先通过传统方式定位到目标控件（如一个按钮、一个文本框），然后获取该控件的坐标和尺寸，仅对这个区域进行截图。这保证了我们截取的是“正确”的区域。
基于视觉锚点的定位：对于一些无法通过属性定位的动态元素或自定义绘制控件，我们可以先让OCR识别一个稳定的、附近的“锚点”文本（如页面标题、栏目名称），然后根据锚点的位置，通过相对坐标偏移量计算出目标区域。
示例：使用Selenium + Pillow进行区域截图

from selenium import webdriver from PIL import Image import io def capture_element_screenshot(driver, element): """截取指定WebElement的图像""" # 1. 获取元素位置和大小 location = element.location size = element.size # 2. 获取整个页面的截图 page_screenshot = driver.get_screenshot_as_png() image = Image.open(io.BytesIO(page_screenshot)) # 3. 计算元素在截图中的坐标（注意可能的DPI缩放） left = location['x'] top = location['y'] right = left + size['width'] bottom = top + size['height'] # 4. 裁剪元素区域 element_image = image.crop((left, top, right, bottom)) return element_image # 使用示例 driver = webdriver.Chrome() driver.get("https://example.com") submit_button = driver.find_element("id", "submit-btn") button_image = capture_element_screenshot(driver, submit_button) button_image.save("submit_button.png")

3.2 核心模块二：GLM-OCR的集成与调用

这里以Python环境为例，展示如何集成一个GLM-OCR的调用客户端。我们假设使用一个提供了Python SDK的GLM-OCR服务或本地部署的模型。

import requests import base64 import json from typing import List, Dict, Optional class GLMOCRClient: def __init__(self, api_base: str, api_key: str = None, use_local: bool = False, model_path: str = None): """ 初始化OCR客户端。 :param api_base: 云端API地址，如果use_local为True则忽略。 :param api_key: 云端API密钥。 :param use_local: 是否使用本地部署的模型。 :param model_path: 本地模型路径。 """ self.use_local = use_local if use_local: # 初始化本地模型，这里需要根据具体GLM-OCR的本地部署方式来写 # 例如，可能是加载transformers pipeline from transformers import pipeline self.pipe = pipeline("image-to-text", model=model_path, device="cpu") # 或 "cuda" else: self.api_base = api_base.rstrip('/') self.api_key = api_key self.headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"} def recognize_from_image(self, image_path: str, language: str = "zh") -> Dict: """ 从图片文件识别文字。 返回结构通常包含：文本内容、置信度、文字块位置等。 """ if self.use_local: from PIL import Image image = Image.open(image_path) result = self.pipe(image) # 将结果格式化为统一结构 return {"text": result[0]['generated_text'], "blocks": []} # 本地模型输出可能需要适配 else: with open(image_path, "rb") as f: image_data = base64.b64encode(f.read()).decode('utf-8') payload = { "image": image_data, "language": language, # 可以添加其他参数，如是否返回坐标、是否进行语义增强等 } response = requests.post(f"{self.api_base}/v1/ocr", headers=self.headers, json=payload) response.raise_for_status() return response.json() def recognize_from_pil_image(self, pil_image) -> Dict: """从PIL.Image对象识别文字，适用于内存中的图像，避免频繁IO。""" import io img_byte_arr = io.BytesIO() pil_image.save(img_byte_arr, format='PNG') img_byte_arr = img_byte_arr.getvalue() image_data = base64.b64encode(img_byte_arr).decode('utf-8') # 后续调用云端API与上面类似，或调用本地模型接口 # 此处省略具体实现 pass # 初始化客户端（示例：使用本地模型） ocr_client = GLMOCRClient(api_base="", use_local=True, model_path="THUDM/glm-ocr-base")

3.3 核心模块三：可配置的验证规则引擎

验证逻辑不能写死。我们设计一个简单的规则引擎，支持多种匹配模式。

import re from difflib import SequenceMatcher class TextValidator: @staticmethod def exact_match(actual: str, expected: str, ignore_case: bool = False) -> bool: """精确匹配""" if ignore_case: return actual.strip().lower() == expected.strip().lower() return actual.strip() == expected.strip() @staticmethod def contains(actual: str, expected_keywords: List[str], all_required: bool = True) -> bool: """包含关键字匹配。all_required为True时，需包含所有关键字；为False时，包含任意一个即可。""" actual_lower = actual.strip().lower() if all_required: return all(keyword.lower() in actual_lower for keyword in expected_keywords) else: return any(keyword.lower() in actual_lower for keyword in expected_keywords) @staticmethod def regex_match(actual: str, pattern: str) -> bool: """正则表达式匹配""" return bool(re.search(pattern, actual.strip(), re.DOTALL)) @staticmethod def semantic_similarity(actual: str, expected: str, threshold: float = 0.9) -> bool: """ 基于文本相似度的模糊匹配。 使用简单的序列匹配器，对于更高要求可以集成词向量或句子嵌入模型。 """ # 这是一个简单的示例，实际生产中可能需要更复杂的语义模型 similarity = SequenceMatcher(None, actual.strip(), expected.strip()).ratio() return similarity >= threshold class ValidationRule: def __init__(self, rule_type: str, expected_value, **kwargs): """ :param rule_type: 'exact', 'contains', 'regex', 'similarity' :param expected_value: 期望的文本或模式 :param kwargs: 其他参数，如ignore_case, threshold等 """ self.rule_type = rule_type self.expected = expected_value self.params = kwargs def validate(self, actual_text: str) -> (bool, str): """执行验证，返回（是否通过， 详细信息）""" validator = TextValidator() actual_text = actual_text or "" # 防止None if self.rule_type == 'exact': passed = validator.exact_match(actual_text, self.expected, self.params.get('ignore_case', False)) msg = f"期望精确文本: '{self.expected}'， 实际文本: '{actual_text}'" elif self.rule_type == 'contains': keywords = self.expected if isinstance(self.expected, list) else [self.expected] all_required = self.params.get('all_required', True) passed = validator.contains(actual_text, keywords, all_required) req = "所有" if all_required else "任意" msg = f"期望包含{req}关键字: {keywords}， 实际文本: '{actual_text}'" elif self.rule_type == 'regex': passed = validator.regex_match(actual_text, self.expected) msg = f"期望匹配正则: {self.expected}， 实际文本: '{actual_text}'" elif self.rule_type == 'similarity': threshold = self.params.get('threshold', 0.9) passed = validator.semantic_similarity(actual_text, self.expected, threshold) similarity = SequenceMatcher(None, actual_text.strip(), str(self.expected).strip()).ratio() msg = f"期望文本: '{self.expected}'， 实际文本: '{actual_text}'， 相似度: {similarity:.2f} (阈值: {threshold})" else: raise ValueError(f"不支持的规则类型: {self.rule_type}") return passed, msg

4. 实战演练：从零构建一个UI文本校验测试用例

让我们用一个完整的例子，把上面的模块串起来。假设我们要测试一个登录页面，验证“登录按钮”的文本和“忘记密码”链接的文本。

4.1 步骤一：定义测试数据与规则

我们使用YAML文件来管理测试用例数据，实现数据驱动。

# test_cases/login_page_validation.yaml test_cases: - name: "验证登录按钮文本" target: "login_button" # 对应UI定位器的标识 action: "screenshot" # 对该元素截图 validation: rule_type: "exact" expected: "登录" params: ignore_case: false description: "检查主登录按钮的文案是否正确" - name: "验证忘记密码链接文本" target: "forgot_password_link" action: "screenshot" validation: rule_type: "contains" expected: ["忘记", "密码"] # 需要同时包含这两个词 params: all_required: true description: "检查忘记密码链接是否包含关键词语" - name: "验证错误提示语（密码为空）" precondition: # 前置操作，触发错误提示 - type: "click" target: "login_button" target: "error_message_area" # 错误信息显示区域 action: "screenshot" validation: rule_type: "regex" expected: "密码.*不能为空|请输入密码" description: "触发密码为空错误，检查提示信息是否符合规范"

4.2 步骤二：编写测试执行脚本

这个脚本会读取YAML配置，执行UI操作，调用OCR验证。

import yaml import logging from pathlib import Path from selenium import webdriver from selenium.webdriver.common.by import By from glm_ocr_client import GLMOCRClient from validation_engine import ValidationRule logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) class UITextValidator: def __init__(self, driver, ocr_client, locators_config): """ :param driver: Selenium WebDriver 实例 :param ocr_client: GLMOCRClient 实例 :param locators_config: 元素定位器配置字典，key为test_cases中的target，value为(By, locator) """ self.driver = driver self.ocr = ocr_client self.locators = locators_config def run_test_case(self, test_case): """执行单个测试用例""" logger.info(f"开始执行用例: {test_case['name']}") result = {"name": test_case['name'], "passed": False, "message": ""} # 1. 执行前置条件（如果有） if 'precondition' in test_case: for action in test_case['precondition']: self._execute_action(action) # 2. 定位目标元素并截图 target_key = test_case['target'] if target_key not in self.locators: result['message'] = f"未找到定位器配置: {target_key}" return result by, locator = self.locators[target_key] try: element = self.driver.find_element(by, locator) # 调用之前定义的截图函数 from screenshot_utils import capture_element_screenshot element_image = capture_element_screenshot(self.driver, element) except Exception as e: result['message'] = f"元素定位或截图失败: {str(e)}" return result # 3. OCR识别 try: # 将PIL图像临时保存或直接传递字节流给OCR客户端 import tempfile with tempfile.NamedTemporaryFile(suffix='.png', delete=False) as tmp: element_image.save(tmp.name) ocr_result = self.ocr.recognize_from_image(tmp.name) recognized_text = ocr_result.get('text', '') Path(tmp.name).unlink() # 删除临时文件 except Exception as e: result['message'] = f"OCR识别失败: {str(e)}" return result logger.info(f"OCR识别结果: '{recognized_text}'") # 4. 应用验证规则 validation_config = test_case['validation'] rule = ValidationRule( rule_type=validation_config['rule_type'], expected_value=validation_config['expected'], **validation_config.get('params', {}) ) passed, detail_msg = rule.validate(recognized_text) result['passed'] = passed result['message'] = detail_msg result['recognized_text'] = recognized_text logger.info(f"验证结果: {'通过' if passed else '失败'} - {detail_msg}") return result def _execute_action(self, action_config): """执行前置操作，这里只简单实现点击""" if action_config['type'] == 'click': target_key = action_config['target'] by, locator = self.locators[target_key] element = self.driver.find_element(by, locator) element.click() # 主程序 if __name__ == "__main__": # 1. 加载测试用例 with open('test_cases/login_page_validation.yaml', 'r', encoding='utf-8') as f: test_suite = yaml.safe_load(f) # 2. 配置元素定位器（这部分也可以放到YAML里） LOCATORS = { "login_button": (By.ID, "loginBtn"), "forgot_password_link": (By.LINK_TEXT, "忘记密码？"), "error_message_area": (By.CLASS_NAME, "error-message"), } # 3. 初始化驱动和OCR客户端 driver = webdriver.Chrome() driver.get("https://your-test-app.com/login") # 假设使用本地模型 ocr_client = GLMOCRClient(api_base="", use_local=True, model_path="./models/glm-ocr") # 4. 初始化验证器并运行用例 validator = UITextValidator(driver, ocr_client, LOCATORS) all_results = [] for case in test_suite['test_cases']: all_results.append(validator.run_test_case(case)) # 5. 输出结果 driver.quit() print("\n=== 测试报告 ===") for res in all_results: status = "✓ PASS" if res['passed'] else "✗ FAIL" print(f"{status}: {res['name']}") print(f" 识别文本: {res.get('recognized_text', 'N/A')}") print(f" 详细信息: {res['message']}\n")

4.3 步骤三：集成到CI/CD流水线

将上述测试脚本封装成命令行工具，并集成到Jenkins Pipeline或GitHub Actions中。

# .github/workflows/ui-text-validation.yml (GitHub Actions示例) name: UI Text Validation with GLM-OCR on: push: branches: [ main, develop ] pull_request: branches: [ main ] jobs: test: runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Set up Python uses: actions/setup-python@v4 with: python-version: '3.9' - name: Install dependencies run: | pip install -r requirements.txt # 可能需要安装系统依赖，如Tesseract（如果作为备用或预处理） # sudo apt-get update && sudo apt-get install -y tesseract-ocr tesseract-ocr-chi-sim - name: Download GLM-OCR Model (如果模型未在代码库中) run: | # 假设从Model Hub下载模型，这里需要根据实际模型部署方式调整 python -c "from transformers import pipeline; pipe = pipeline('image-to-text', model='THUDM/glm-ocr-base')" - name: Run UI Tests with OCR Validation run: | python run_ui_validation.py --config test_suites/smoke_tests.yaml env: # 如果有云端API密钥，在这里设置 GLM_OCR_API_KEY: ${{ secrets.GLM_OCR_API_KEY }} - name: Upload Test Reports if: always() uses: actions/upload-artifact@v3 with: name: test-reports path: | test-reports/ screenshots/

5. 进阶应用：文档内容自动化比对

除了UI文本，GLM-OCR在文档内容验证上更能大显身手。想象一下，每次版本发布，需要人工核对几十份用户协议、产品说明书、合同模板是否更新正确，是多么耗时且易错的工作。

5.1 场景一：合同/协议版本差分检查

我们可以自动化比较新版本和基线版本的合同文档。

文档预处理：使用pdfplumber或PyMuPDF解析PDF，将每一页转换为图像。对于Word文档，可以使用python-docx结合docx2txt提取文本，但对于复杂格式或扫描件，仍需要OCR。
分页OCR识别：对每一页图像调用GLM-OCR，获取结构化文本（可以要求返回带段落和位置的信息）。
内容比对：
- 精确比对：适用于格式固定的文档，直接逐段、逐句对比文本。
- 关键信息抽取与比对：使用自然语言处理技术（可以结合GLM的大模型能力进行NER命名实体识别），抽取出“甲方名称”、“合同金额”、“生效日期”等关键字段进行比对。
- 语义差分：对于允许表述微调但不允许语义变更的场景，计算新旧文本的语义相似度（如使用Sentence-BERT生成向量后计算余弦相似度），低于阈值则报警。

5.2 场景二：报告数据一致性校验

在金融、报表类软件测试中，需要验证前端页面展示的数据与后台生成的PDF/Excel报告数据是否一致。

数据抓取：从UI上通过自动化脚本获取数据列表（如交易明细表格）。
报告解析：将导出的PDF报告通过OCR识别，并利用其表格检测能力，将识别出的文本按表格结构重组。
结构化比对：将UI抓取的数据列表与OCR解析出的报告表格数据，逐行逐列进行比对。这里需要处理OCR可能带来的字符识别错误（如“0”和“O”），可以结合校验和、模糊匹配等方式。

5.3 实操示例：PDF合同关键条款检查

import fitz # PyMuPDF from glm_ocr_client import GLMOCRClient import re def validate_contract_clause(pdf_path, clause_keywords, expected_patterns): """ 验证PDF合同中是否包含特定条款，且内容符合预期模式。 :param pdf_path: PDF文件路径 :param clause_keywords: 识别条款的关键词列表，如['保密', '义务'] :param expected_patterns: 期望条款内容中必须出现的模式列表（正则表达式） :return: 验证结果字典 """ doc = fitz.open(pdf_path) ocr_client = GLMOCRClient(use_local=True, model_path="path/to/model") all_text = "" for page_num in range(len(doc)): page = doc.load_page(page_num) # 将PDF页面转为图像 pix = page.get_pixmap() image_path = f"temp_page_{page_num}.png" pix.save(image_path) # OCR识别 result = ocr_client.recognize_from_image(image_path) page_text = result.get('text', '') all_text += page_text + "\n" # 清理临时图像文件 Path(image_path).unlink() doc.close() # 1. 查找包含关键词的段落（简单实现） lines = all_text.split('\n') relevant_paragraphs = [] for line in lines: if all(kw in line for kw in clause_keywords): relevant_paragraphs.append(line) if not relevant_paragraphs: return {"passed": False, "message": f"未找到包含关键词 {clause_keywords} 的条款"} # 2. 在找到的段落中检查预期模式 clause_text = ' '.join(relevant_paragraphs) failed_patterns = [] for pattern in expected_patterns: if not re.search(pattern, clause_text, re.IGNORECASE): failed_patterns.append(pattern) if failed_patterns: return { "passed": False, "message": f"条款内容不符合预期。未匹配到的模式: {failed_patterns}", "clause_found": clause_text[:500] # 只返回前500字符 } else: return { "passed": True, "message": "关键条款检查通过", "clause_found": clause_text[:500] } # 使用示例：检查合同中是否有“争议解决”条款，且条款中必须包含“仲裁”和“所在地法院”字样 result = validate_contract_clause( pdf_path="contract_v2.pdf", clause_keywords=["争议", "解决"], expected_patterns=[r"仲裁", r"所在地.*法院|法院.*所在地"] ) print(result)

6. 避坑指南与效能优化心得

在实际项目中摸爬滚打，积累了不少经验教训，这里分享几个关键的避坑点和优化技巧。

6.1 识别准确率不是100%：如何设计鲁棒的测试用例？

不要依赖绝对精确的文本匹配：对于重要的UI文本，采用“包含关键词语”的规则比“完全相等”更稳定。例如，验证错误提示，检查是否包含“错误”、“无效”、“失败”等词，而不是完整的句子。
设置置信度阈值：GLM-OCR的返回结果通常带有置信度。对于关键文本（如金额、账号），可以设定一个较高的置信度阈值（如0.95），低于此阈值则认为识别不可靠，标记为“需人工复核”，而不是直接判失败。
结合多源信息：如果可能，将OCR识别结果与通过UI自动化框架直接获取的element.text属性进行交叉验证。两者一致则最好；不一致时，可以以OCR结果为主，但记录下差异供分析。
采用“黄金图片”比对策略：对于极其稳定、不常变化的静态文本（如Logo上的公司名），可以保存一张标准的“黄金图片”。每次测试时，对新截图和黄金图片进行OCR识别后的文本比对，或者直接使用图像相似度算法（如SSIM）作为辅助判断。

6.2 性能优化：让OCR测试快起来

区域截图，避免全屏：这是最重要的优化点。只截取需要验证的元素区域，图像尺寸小，传输和处理速度会快一个数量级。
并行执行：一个页面上有多个需要OCR验证的元素？可以并行截图，然后批量提交给OCR服务（如果服务支持批量接口）。或者利用concurrent.futures实现多线程识别。
缓存与模型预热：对于本地部署的模型，第一次加载通常较慢。可以在测试套件启动时预先加载模型（预热）。对于相同的、不变的文本验证（如菜单项），可以考虑将第一次正确的识别结果缓存起来，下次直接使用，但需谨慎，确保UI未变更。
选择轻量模型：在CI/CD环境中，如果对精度要求不是极端苛刻，可以使用GLM-OCR的轻量版或蒸馏版模型，它们在速度和资源消耗上更有优势。

6.3 维护性：让测试用例易于理解和更新

清晰的规则描述：在YAML或JSON配置中，为每个验证规则写清楚的description，说明“为什么要验证这个”和“期望是什么”。三个月后，你自己或同事还能看得懂。
统一的定位器管理：将UI元素的定位器（如ID、XPath）集中管理在一个文件中，与OCR验证规则解耦。当UI布局变化时，只需更新定位器文件，而不需要修改大量的测试用例文件。
定期复审与清理：随着产品迭代，一些UI文本可能会消失或改变。定期运行测试用例，对那些长期失败（因为功能已移除）或不再重要的验证点进行清理，保持测试套件的健康度。

6.4 一个常见的“坑”：动态文本与国际化

动态文本：如“欢迎回来，张三！”、“您有3条新消息”。验证这类文本时，应使用正则表达式或语义匹配。例如，验证欢迎语可以匹配模式r"欢迎回来，.+！"。
多语言测试：GLM-OCR通常支持多种语言。在测试多语言版本时，需要在验证规则中指定对应的language参数，并且期望文本也要使用对应语言。最好能为每种语言维护一套独立的测试数据。

将GLM-OCR引入自动化测试，最初可能会因为识别率、性能等问题遇到一些挑战，但一旦流程跑通，它带来的收益是巨大的——从重复、易错的人工核对中解放出来，将测试验证的维度从“有没有”提升到“对不对”，真正守护住了产品交付前最后一道内容质量关卡。我的体会是，开始时选择一个小的、痛感最强的场景（比如合同关键信息核对）进行试点，快速看到价值，再逐步推广到更多场景，这样团队的接受度和成功率会高很多。

查看全文

http://www.jsqmd.com/news/1069347/