当前位置：首页 > news >正文

GLM-OCR轻量级OCR模型Python爬虫实战：自动化网页文本提取与识别

news 2026/3/27 8:15:40

GLM-OCR轻量级OCR模型Python爬虫实战：自动化网页文本提取与识别

做爬虫的朋友，估计都遇到过这种头疼事：网页上那些关键信息，比如商品价格、公司联系方式、新闻正文，偏偏不是老老实实放在HTML标签里，而是直接嵌在图片里。你费劲巴拉写好了XPath和正则表达式，结果发现目标是一张图，瞬间感觉一拳打在了棉花上。

更别提那些为了反爬虫而生的图片验证码了，简直是爬虫工程师的“一生之敌”。传统爬虫技术在这里基本失灵，手动处理又慢又不现实。我之前有个项目，需要批量采集一批企业官网上的联系电话，结果发现超过一半的网站把电话做成了图片，当时就感觉这事儿要黄。

不过，现在情况不一样了。OCR（光学字符识别）技术，特别是像GLM-OCR这样的轻量级模型，已经足够成熟和易用，完全可以无缝集成到我们的爬虫流程里。它就像给爬虫装上了一双“眼睛”，让程序不仅能读懂HTML，还能看懂图片里的文字。今天，我就结合自己的实战经验，跟大家聊聊怎么用GLM-OCR模型，把那些藏在图片里的“硬骨头”给啃下来，实现真正意义上的自动化网页文本提取。

1. 为什么爬虫需要OCR？从痛点说起

在深入技术细节之前，我们先看看爬虫工程师日常会遇到的几个典型场景。理解了这些痛点，你就能明白为什么OCR会成为现代爬虫工具箱里的必备品。

1.1 传统爬虫的“盲区”

我们熟悉的爬虫，无论是用requests、Scrapy还是Selenium，核心能力都是解析HTML/XML结构。它们通过标签、属性、CSS选择器来定位和提取文本信息。这套方法在对付结构良好的网页时，效率非常高。

但互联网是复杂的，很多信息出于设计、版权保护或反爬虫的目的，并不会以纯文本形式呈现：

图片化文本：这是最常见的情况。商品价格、促销信息、联系电话、地址等关键数据，经常被渲染成图片。一方面是为了视觉统一（避免字体缺失），另一方面也是最简单的防爬手段。
验证码：登录、注册、高频访问时弹出的各种字符、算式、滑块验证码，其核心就是一张包含扭曲、干扰信息的图片，目的就是区分人和机器。
复杂图表与截图：研究报告、数据报表中的图表，或者用户上传的包含文字的截图（如聊天记录、文档截图），其中的数据无法通过解析DOM获得。
Canvas/WebGL渲染：一些现代网页或游戏，会使用Canvas等技术动态绘制文字，这些文字在HTML源码中根本不存在，只能以图像形式被捕获。

面对这些场景，传统爬虫就变成了“瞎子”。你可能会想到手动下载图片，然后用人眼识别或者找外包平台，但这在需要大规模、自动化处理的爬虫项目里，成本高、速度慢，完全不可行。

1.2. GLM-OCR带来的转变

GLM-OCR这类轻量级OCR模型的出现，改变了游戏规则。它不是一个独立的工具，而是一个可以被爬虫程序调用的“识别引擎”。

想象一下这个增强后的爬虫流程：

爬虫像往常一样请求网页，解析HTML。
当遇到<img>标签，或者通过截图方式获取到页面某区域图像时，爬虫程序会将这些图片保存到内存或本地。
爬虫程序自动调用本地的GLM-OCR模型接口，将图片传入。
GLM-OCR模型在几毫秒到几百毫秒内（取决于图片大小和硬件），返回图片中识别出的文字和其位置信息。
爬虫程序接收识别结果，将其作为文本数据，与从HTML中提取的其他数据一起，进行清洗、结构化，最后存储。

这个过程完全是自动化的，无需人工干预。GLM-OCR的“轻量级”特性意味着它可以在普通的开发机甚至服务器上快速部署和运行，对硬件要求相对友好，特别适合集成到爬虫这种对时效性和资源消耗敏感的应用中。

2. 实战搭建：将GLM-OCR集成到Python爬虫

理论说再多，不如一行代码。我们直接来看如何把一个典型的爬虫项目改造成“OCR增强版”。这里我以一个需要抓取商品图片价格的爬虫为例。

2.1 环境准备与模型部署

首先，确保你的Python环境（建议3.8以上）已经就绪。GLM-OCR的安装非常简便。

# 安装PaddlePaddle深度学习框架（GLM-OCR基于此） # 这里以CPU版本为例，如果你有GPU且想提升速度，请安装GPU版本 pip install paddlepaddle # 安装PaddleOCR（GLM-OCR是其包含的模型之一，安装它即可） pip install paddleocr

安装完成后，你其实已经拥有了一个功能强大的OCR工具包。PaddleOCR内置了多种模型，包括轻量级的ch_PP-OCRv4系列（这就是GLM-OCR相关的技术体系），开箱即用。

我们来写一个最简单的测试脚本，验证OCR功能是否正常：

from paddleocr import PaddleOCR # 初始化OCR引擎，使用中文轻量级模型 # `use_angle_cls=True` 启用方向分类，可识别旋转文字 # `lang='ch'` 指定中文识别 # `use_gpu=False` 默认使用CPU，如果你有CUDA环境且安装了GPU版Paddle，可设为True ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=False) # 对一张本地图片进行识别 img_path = './test_price.png' result = ocr.ocr(img_path, cls=True) # 打印识别结果 for line in result: print(line)

运行这个脚本，如果它成功输出了图片中文字的位置和内容，那么恭喜你，OCR引擎已经准备就绪。识别结果result是一个列表，其中每个元素对应一行文字，包含了文本框坐标和识别出的文本内容及置信度。

2.2. 改造爬虫：一个完整的OCR增强案例

假设我们要爬取一个电商网站，它的商品价格是图片格式。我们的爬虫需要完成：下载商品页HTML -> 定位价格图片 -> 下载图片 -> OCR识别 -> 存储结果。

这里我们使用requests和BeautifulSoup进行演示，实际项目中你可能用Scrapy或Selenium。

import requests from bs4 import BeautifulSoup from paddleocr import PaddleOCR import os import time from urllib.parse import urljoin class OCREnhancedSpider: def __init__(self): self.ocr_engine = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=False) # 初始化一次，重复利用 self.session = requests.Session() self.session.headers.update({ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' }) def fetch_page(self, url): """获取网页内容""" try: resp = self.session.get(url, timeout=10) resp.raise_for_status() resp.encoding = resp.apparent_encoding return resp.text except Exception as e: print(f"请求页面失败 {url}: {e}") return None def extract_price_from_image(self, img_url, product_id): """核心功能：下载图片并用OCR识别价格""" try: # 1. 下载图片到内存 img_resp = self.session.get(img_url, timeout=10) img_resp.raise_for_status() img_data = img_resp.content # 2. 将图片数据临时保存，供PaddleOCR读取 # 也可以使用从内存直接读取的方法，这里用临时文件更清晰 temp_img_path = f"./temp_{product_id}.png" with open(temp_img_path, 'wb') as f: f.write(img_data) # 3. 调用OCR识别 result = self.ocr_engine.ocr(temp_img_path, cls=True) # 4. 处理识别结果：这里假设价格是图片中唯一的数字串 recognized_text = "" if result: for line in result: text_info = line[1] # [文本框坐标, (文本, 置信度)] recognized_text += text_info[0] + " " # 5. 清理临时文件 os.remove(temp_img_path) # 6. 使用简单的正则表达式从识别文本中提取价格 import re # 匹配如 ￥199.50、199、1,299.00 等格式 price_pattern = r'[¥￥$]?\s*(\d{1,3}(?:,\d{3})*(?:\.\d{2})?|\d+(?:\.\d{2})?)' matches = re.findall(price_pattern, recognized_text) if matches: # 取第一个匹配到的数字串，并清理逗号 price = matches[0].replace(',', '') return float(price) if '.' in price else int(price) else: print(f"未能在识别文本中找到价格: {recognized_text}") return None except Exception as e: print(f"处理图片 {img_url} 时出错: {e}") return None def parse_product_page(self, url): """解析商品页面，提取信息""" html = self.fetch_page(url) if not html: return soup = BeautifulSoup(html, 'html.parser') # 假设商品名称在 <h1 class="product-title"> 里 title_elem = soup.find('h1', class_='product-title') product_name = title_elem.text.strip() if title_elem else "未知商品" # 关键步骤：定位价格图片。假设价格图片的img标签有特定class price_img_elem = soup.find('img', class_='price-image') if price_img_elem and price_img_elem.get('src'): # 构建完整的图片URL img_src = price_img_elem['src'] full_img_url = urljoin(url, img_src) # 调用OCR函数识别价格 product_id = url.split('/')[-1] # 简单生成一个ID price = self.extract_price_from_image(full_img_url, product_id) # 组织并返回数据 product_data = { 'name': product_name, 'price': price, 'source_url': url } print(f"成功提取商品: {product_data}") return product_data else: print(f"页面 {url} 未找到价格图片") return None def run(self, start_urls): """启动爬虫""" all_products = [] for url in start_urls: print(f"正在处理: {url}") data = self.parse_product_page(url) if data: all_products.append(data) time.sleep(1) # 礼貌性延迟 return all_products # 使用示例 if __name__ == '__main__': spider = OCREnhancedSpider() # 假设的URL列表 product_urls = [ 'https://example.com/product/123', 'https://example.com/product/456', ] results = spider.run(product_urls) print(f"总共爬取到 {len(results)} 个商品信息。")

这个案例清晰地展示了集成流程。OCREnhancedSpider类封装了整个过程，核心是extract_price_from_image方法，它完成了从网络下载图片到OCR识别再到文本提取的完整链条。

3. 进阶优化：提升爬虫与OCR的协作效率

当你的爬虫项目从几个页面扩展到成千上万个页面时，基础的集成方式可能会遇到性能瓶颈。下面分享几个提升效率的实战技巧。

3.1. 异步处理与批量识别

同步地“下载一张图 -> 识别 -> 再下载下一张”模式速度太慢。我们可以利用异步IO来并行下载图片，并积累一定数量的图片后批量提交给OCR模型识别，减少模型初始化的开销。

这里结合aiohttp和异步思路提供一个优化方向（注意：PaddleOCR本身是同步的，批量处理主要是减少调用次数和等待时间）。

import aiohttp import asyncio from paddleocr import PaddleOCR from concurrent.futures import ThreadPoolExecutor import cv2 import numpy as np class BatchOCRProcessor: def __init__(self, batch_size=4, max_workers=2): self.ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=False) self.batch_size = batch_size # 使用线程池处理CPU密集型的OCR推理 self.executor = ThreadPoolExecutor(max_workers=max_workers) self.image_buffer = [] # 缓冲待识别的图片数据 async def download_image_async(self, session, url): """异步下载单张图片""" try: async with session.get(url) as response: if response.status == 200: img_data = await response.read() # 将字节数据转为OpenCV格式（numpy数组），PaddleOCR可直接接受 nparr = np.frombuffer(img_data, np.uint8) img = cv2.imdecode(nparr, cv2.IMREAD_COLOR) return img except Exception as e: print(f"异步下载失败 {url}: {e}") return None def ocr_recognize_batch(self, image_list): """批量识别一组图片（在子线程中运行）""" results = [] for img in image_list: if img is not None: # PaddleOCR.ocr() 可以直接接受numpy数组 result = self.ocr.ocr(img, cls=True) # 简化处理：提取所有识别文本合并 text = ' '.join([line[1][0] for line in result]) if result else '' results.append(text) else: results.append('') return results async def process_urls(self, url_list): """主处理流程：异步下载，批量识别""" async with aiohttp.ClientSession() as session: tasks = [self.download_image_async(session, url) for url in url_list] downloaded_images = await asyncio.gather(*tasks) # 将图片按批次分组 batched_results = [] for i in range(0, len(downloaded_images), self.batch_size): batch = downloaded_images[i:i+self.batch_size] # 将OCR识别任务提交到线程池，避免阻塞事件循环 loop = asyncio.get_event_loop() batch_texts = await loop.run_in_executor( self.executor, self.ocr_recognize_batch, batch ) batched_results.extend(batch_texts) # 将识别结果与原始URL对应 final_data = list(zip(url_list, batched_results)) return final_data # 使用示例 async def main(): processor = BatchOCRProcessor(batch_size=4) image_urls = ['url1.jpg', 'url2.png', ...] # 你的图片URL列表 results = await processor.process_urls(image_urls) for url, text in results: print(f"URL: {url} -> 识别文本: {text[:50]}...") # 打印前50字符 # asyncio.run(main())

这个BatchOCRProcessor类实现了异步下载和批量识别，能显著提升处理海量图片链接时的吞吐量。

3.2. 利用GPU加速与针对性调优

如果你的服务器配备了NVIDIA GPU，那么启用GPU加速将是性能提升的“杀手锏”。只需在初始化PaddleOCR时设置use_gpu=True，并确保已安装对应版本的PaddlePaddle-GPU。

# 初始化支持GPU的OCR引擎 ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=True, gpu_mem=500) # gpu_mem 设置显存占用上限(MB)

在爬虫场景下，还可以针对性地进行优化：

图片预处理：爬虫得到的图片可能尺寸不一。在识别前，可以使用OpenCV进行缩放，将宽高限制在一个合理范围内（如1024px），这能大幅减少OCR模型的推理时间，且对精度影响很小。
识别区域裁剪：如果你能通过网页结构分析，预先知道文字在图片中的大致区域（比如价格总是在图片右下角），可以先裁剪图片再识别，也能提升速度和精度。
缓存机制：对于固定不变的图片（比如网站Logo、通用图标），其识别结果可以缓存起来，避免重复识别。

3.3. 处理复杂场景：验证码与动态内容

对于验证码，GLM-OCR有一定识别能力，但面对专门设计的强干扰验证码（如极度扭曲、粘连、复杂背景）时，可能需要更专业的模型或结合其他技术（如深度学习分类模型）。

对于Canvas等动态渲染的内容，爬虫首先需要将其“截图”成图片。Selenium或Playwright等浏览器自动化工具可以轻松做到这一点。你可以先导航到页面，等待元素渲染完成，然后对特定元素进行截图，再将截图交给GLM-OCR识别。

from selenium import webdriver from paddleocr import PaddleOCR driver = webdriver.Chrome() driver.get('https://example.com') # 等待动态内容加载 # ... # 对某个元素截图 element = driver.find_element_by_css_selector('.dynamic-text-canvas') element.screenshot('./dynamic_content.png') driver.quit() # OCR识别截图 ocr = PaddleOCR() result = ocr.ocr('./dynamic_content.png') print(result)

4. 总结

把GLM-OCR集成到Python爬虫中，并不是要替换传统的HTML解析技术，而是对它的一次强有力的补充。它解决了爬虫领域一个长期存在的痛点——图像内文本信息的自动化提取。

从实践来看，这套方案的优势非常明显。首先是自动化程度高，一旦流程打通，就能7x24小时处理海量图片信息。其次是成本极低，相比于云OCR服务的调用费用和人工处理的天价，自己部署一个轻量级模型几乎是一次性投入。最后是灵活性好，你可以根据具体的爬虫目标和网站特点，对OCR的调用时机、图片预处理方式、结果后处理逻辑进行精细化的定制。

当然，它也不是万能的。OCR的准确率无法达到100%，对于排版异常复杂、字体奇特、背景干扰严重的图片，识别结果可能需要人工复核或设计更复杂的后处理规则。但在绝大多数电商、资讯、文档类网站的爬取场景中，GLM-OCR的精度已经足以支撑业务需求。

如果你正在为爬取图片中的文字而发愁，不妨现在就动手试试。从安装PaddleOCR到写出第一个识别脚本，可能只需要一杯咖啡的时间。当你的爬虫第一次成功地从图片里读出价格、抓取出验证码背后的答案时，那种感觉，就像给机器人赋予了视觉，整个世界的数据都变得触手可及。