当前位置：首页 > news >正文

GLM-OCR与LaTeX工作流集成：自动将手写公式转换为代码

news 2026/4/21 23:43:41

GLM-OCR与LaTeX工作流集成：自动将手写公式转换为代码

每次写论文或者整理笔记，最头疼的是什么？对我而言，绝对是敲LaTeX公式。一个复杂的积分或者矩阵，手动输入不仅慢，还容易出错，反复检查括号和下标简直是种折磨。相信很多搞科研、写技术文档的朋友都有同感。

最近，我尝试把GLM-OCR这个图像识别模型和LaTeX工作流整合了一下，效果出乎意料。简单来说，就是拍一张手写公式的照片，或者截个图，程序就能自动识别并转换成可以直接复制粘贴的LaTeX代码。整个过程从几分钟缩短到几秒钟，效率提升不是一点半点。

这篇文章，我就来分享一下这个工具链是怎么搭起来的，从模型的选择、微调，到如何无缝集成到你常用的Overleaf或者本地TeX编辑器里。如果你也受够了手动输入公式，不妨跟着试试。

1. 为什么需要自动化的公式转换？

在深入技术细节之前，我们先看看这个需求到底有多普遍，以及传统方法为什么让人头疼。

手写公式是学术交流中最自然的表达方式。我们在草稿纸、白板甚至平板电脑上推演时，都是随手写下。但当我们想把这份智慧结晶电子化，录入到论文、报告或笔记软件中时，障碍就出现了。

传统的公式录入主要有两种方式：

手动输入LaTeX：这是最精确的方式，但学习曲线陡峭，输入速度慢，极易因少一个括号或错一个下标而导致编译错误。
使用公式编辑器：像Word的公式编辑器或者MathType，虽然可视化，但效率依然不高，且最终格式往往与学术出版要求的LaTeX不兼容，需要二次转换。

更麻烦的是批量处理。想象一下，你有一整本写满推导过程的旧笔记本，想要把它电子化归档。一页一页地手动输入，工作量巨大，让人望而却步。

而GLM-OCR与LaTeX工作流的集成，瞄准的正是这个痛点。它试图在“自然手写”和“标准电子化”之间架起一座桥梁：你负责思考和书写，机器负责识别和转换。这不仅仅是节省时间，更是解放了创造力，让你能更专注于思路本身，而不是繁琐的格式编码。

2. 核心工具选择：为什么是GLM-OCR？

市面上OCR工具不少，从老牌的Tesseract到各种在线API，为什么选择GLM-OCR来对付数学公式这个“硬骨头”？

首先，通用OCR的短板。像Tesseract这样的工具，对印刷体文字识别效果很好，但对手写体的适应性一般，尤其是对数学公式这种二维结构敏感的内容。公式不是文字的线性排列，它包含上下标、分式、根号、矩阵等复杂的空间布局关系。通用OCR通常会把“∑_{i=1}^{n}”识别成一行乱七八糟的字符，完全丢失了其数学含义和结构。

GLM-OCR的优势就在于其大模型基座。它基于强大的视觉-语言模型构建，不仅能看到像素，还能在一定程度上“理解”图像中元素的语义关系和空间结构。这意味着它更有可能识别出“∫”是一个积分符号，并且它后面的内容是上标和下标，而不是孤立的字符。

更重要的是，GLM-OCR具备强大的可定制性和微调能力。数学符号是一个特定的、封闭的集合（尽管很大），这为针对性训练提供了可能。我们可以收集或生成大量手写数学公式的数据集，对模型进行微调，让它专门成为“数学公式识别专家”。经过微调的模型，对冷门符号（如花体字母、特殊运算符）的识别准确率会远高于通用模型。

当然，没有工具是完美的。GLM-OCR在部署和资源消耗上可能比轻量级OCR要复杂一些，但考虑到它带来的识别精度提升，对于公式转换这种对准确性要求极高的场景，这个投入是值得的。

3. 构建公式识别与转换流水线

整个工具链可以看作一个三步走的流水线：输入图像、识别与结构解析、输出LaTeX代码。下面我们拆开每一步来看。

3.1 第一步：图像预处理——给模型一张“干净”的考卷

模型的识别效果，很大程度上取决于你喂给它的图片质量。直接从昏暗环境下拍摄的笔记本照片，可能包含阴影、倾斜、背景网格线等噪声。预处理的目标就是尽可能还原一个“标准”的手写公式图像。

import cv2 import numpy as np from PIL import Image def preprocess_formula_image(image_path): """ 对公式图像进行预处理。 参数: image_path: 输入图片路径 返回: processed_img: 处理后的OpenCV图像 (灰度、二值化、去噪) """ # 1. 读取图像 img = cv2.imread(image_path) if img is None: raise ValueError(f"无法读取图像: {image_path}") # 2. 转换为灰度图 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 3. 自适应阈值二值化（比全局阈值更能适应光照不均） # 目的是得到黑字白底 binary = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV, 11, 2) # 此时背景是黑色(0)，字是白色(255)，符合常见OCR输入预期 # 但有些模型需要白底黑字，可以再反转回来 # binary = cv2.bitwise_not(binary) # 4. 去噪（去除小的白点或黑点） kernel = np.ones((2,2), np.uint8) denoised = cv2.morphologyEx(binary, cv2.MORPH_OPEN, kernel) # 5. 可选：透视矫正（如果图像倾斜严重） # 这里可以使用轮廓检测找到公式区域，然后进行仿射变换 # 代码略复杂，可根据需要添加 return denoised # 使用示例 processed_img = preprocess_formula_image(“your_handwritten_formula.jpg”) # 可以将处理后的图像保存或直接送入OCR模型 cv2.imwrite(“processed_formula.png”, processed_img)

预处理不需要追求绝对的完美，只要能让公式主体清晰、背景干扰减少即可。有时候，适当保留一些手写的“痕迹”，反而有助于模型判断笔触风格。

3.2 第二步：使用与微调GLM-OCR进行识别

这是核心环节。我们可以先使用GLM-OCR的基础能力，如果效果不理想，再考虑微调。

基础调用：假设你已经部署好了GLM-OCR的API服务或本地模型。

import requests import base64 def recognize_with_glm_ocr(image_path, api_url=“http://localhost:8000/ocr”): """ 调用GLM-OCR API识别图像中的文本。 参数: image_path: 预处理后的图像路径 api_url: GLM-OCR服务地址 返回: result: 识别结果，通常包含文本和位置信息 """ with open(image_path, “rb”) as image_file: img_base64 = base64.b64encode(image_file.read()).decode(‘utf-8’) payload = { “image”: img_base64, “task”: “formula”, # 可以传递特定任务参数，提示模型这是公式 “detail”: True # 获取更详细的结构化信息 } try: response = requests.post(api_url, json=payload, timeout=30) response.raise_for_status() result = response.json() return result except requests.exceptions.RequestException as e: print(f“OCR请求失败: {e}”) return None # 调用 ocr_result = recognize_with_glm_ocr(“processed_formula.png”) if ocr_result and “text” in ocr_result: raw_text = ocr_result[“text”] print(f“识别出的原始文本: {raw_text}”) # 原始文本可能是 “∫_a^b f(x) dx” 这样的字符串，但结构信息可能在其他字段

基础模型可能已经能识别很多常见公式。但如果你的手写风格特殊，或者涉及大量专业符号（如物理学、群论中的符号），识别率可能会下降。

微调模型（进阶）：当基础模型不够用时，微调是提升精度的有效手段。

准备数据集：这是最关键也最耗时的一步。你需要大量“手写公式图片-LaTeX代码”配对数据。
- 开源数据集：可以寻找像IM2LATEX-100K这样的公开数据集，它包含大量渲染的LaTeX公式图片及其代码。虽然它不是手写的，但作为起点很有用。
- 合成数据：用程序（如Python的matplotlib或handwrite库）模拟不同风格的手写字体，将LaTeX代码渲染成图片。这样可以快速生成大量配对数据。
- 真实数据收集：自己或请同学、同事书写一批公式并标注。量不需要极大，但质量要高，能覆盖你的常用符号。

微调训练：使用GLM-OCR提供的微调接口或脚本。这个过程通常需要一定的计算资源（GPU）。

# 假设GLM-OCR项目提供了微调示例 # 这是一个示意性的命令，具体参数需参考官方文档 python finetune_glm_ocr.py \ --model_name_or_path “path/to/base/glm-ocr” \ --train_data_dir “./dataset/train” \ --validation_data_dir “./dataset/val” \ --output_dir “./output/finetuned_formula_model” \ --num_train_epochs 10 \ --per_device_train_batch_size 8 \ --learning_rate 2e-5

微调后，你会得到一个专精于数学公式识别的模型，在特定领域内的表现通常会显著优于基础模型。

3.3 第三步：从识别文本到结构化LaTeX

OCR模型识别出来的，通常是一个包含文本和粗略位置信息的字符串。但公式是结构化的，我们需要将其转换成正确的LaTeX语法。

这一步有时被称为“后处理”或“LaTeX序列化”。GLM-OCR如果足够强大，可能会直接输出格式良好的LaTeX片段。但很多时候，我们需要一个额外的处理层。

import re def postprocess_to_latex(ocr_text): """ 对OCR识别出的文本进行后处理，尝试修复常见的LaTeX格式问题。 这是一个规则引擎的简单示例，实际应用可能需要更复杂的语法分析。 """ latex_code = ocr_text # 1. 修复常见符号映射（如果OCR输出的是纯文本符号） symbol_map = { “alpha”: “\\alpha“, “beta”: “\\beta“, “sum”: “\\sum“, “int”: “\\int“, “infty”: “\\infty“, “partial”: “\\partial“, “cdot”: “\\cdot“, # ... 添加更多映射 } for plain, latex_cmd in symbol_map.items(): # 简单的单词边界替换，避免误伤 latex_code = re.sub(rf’\b{plain}\b’, latex_cmd, latex_code) # 2. 尝试推断上下标结构（如果OCR提供了边界框信息，这里会更容易） # 假设ocr_result中包含详细的bbox信息，我们可以分析字符的相对位置 # 如果位置信息显示某个字符在另一字符的右上方，则很可能为上标 # 这部分逻辑较复杂，依赖于OCR输出的结构化程度 # 3. 确保花括号配对（一个常见错误来源） # 简单的检查：如果左括号和右括号数量不匹配，尝试提示用户 if latex_code.count(‘{’) != latex_code.count(‘}’): print(“警告：生成的LaTeX代码中花括号可能未配对，请手动检查。”) # 4. 包裹数学环境（如果识别内容没有） if not latex_code.startswith(‘$’) and not latex_code.startswith(‘\\[’): # 默认用行内数学环境包裹 latex_code = f“${latex_code}$” return latex_code # 结合使用 raw_text = ocr_result.get(“text”, “”) final_latex = postprocess_to_latex(raw_text) print(f“最终LaTeX代码: {final_latex}”)

对于极其复杂的公式，后处理规则可能会变得非常复杂。此时，可以考虑引入一个专门的数学表达式识别（MER）模型或工具，如Pix2Tex或Mathpix的算法思路，它们将公式图像直接映射到LaTeX的语法树，而非经过文本中间态，准确率更高。

4. 集成到你的工作流：Overleaf与本地编辑器

生成LaTeX代码不是终点，能无缝插入你的写作环境才是。这里介绍两种主流环境的集成方法。

4.1 方案一：浏览器插件连接Overleaf

Overleaf是流行的在线LaTeX编辑器。我们可以开发一个简单的浏览器插件（如Chrome扩展）。

插件工作流程：

用户在网页上（可以是Overleaf，也可以是任何包含公式图片的页面）右键点击公式图片。
选择插件菜单中的“识别公式并复制LaTeX”。
插件将图片发送到你部署的后端服务（运行着GLM-OCR）。
后端处理完成后，将LaTeX代码返回。
插件将代码复制到用户的剪贴板。
用户回到Overleaf编辑器，直接粘贴即可。

优势：无需离开浏览器环境，使用便捷，尤其适合从PDF、网页上抓取公式图片进行转换。

4.2 方案二：本地脚本集成VS Code或Typora

如果你习惯使用本地的VS Code（配合LaTeX Workshop插件）或Typora等Markdown/LaTeX编辑器，本地脚本集成更直接。

以VS Code为例：

创建一个Python脚本，它监听某个特定的文件夹（如~/Downloads/formula_images）。
当你有一张公式图片需要转换时，只需将其放入这个监控文件夹。
脚本自动调用GLM-OCR处理新图片，并将生成的LaTeX代码写入一个临时文件或直接通过系统通知显示。
在VS Code中，你可以设置一个快捷键，一键插入这个临时文件的内容到光标处。

# 这是一个简化的文件夹监控脚本示例 (watch_formula.py) import os import time from watchdog.observers import Observer from watchdog.events import FileSystemEventHandler from your_ocr_pipeline import process_image_to_latex # 导入你前面写好的处理函数 class FormulaImageHandler(FileSystemEventHandler): def on_created(self, event): if not event.is_directory and event.src_path.lower().endswith((‘.png’, ‘.jpg’, ‘.jpeg’)): print(f“检测到新图片: {event.src_path}”) time.sleep(0.5) # 等待文件完全写入 try: latex_code = process_image_to_latex(event.src_path) # 将结果保存到剪贴板或一个固定路径的文本文件 with open(“/tmp/latest_formula.tex”, “w”) as f: f.write(latex_code) print(f“LaTeX代码已生成并保存: {latex_code}”) # 可选：发送系统通知 # notify(“公式转换完成”, f“代码已就绪”) except Exception as e: print(f“处理图片时出错: {e}”) if __name__ == “__main__”: path_to_watch = os.path.expanduser(“~/Downloads/formula_images”) event_handler = FormulaImageHandler() observer = Observer() observer.schedule(event_handler, path_to_watch, recursive=False) observer.start() print(f“开始监控文件夹: {path_to_watch}”) try: while True: time.sleep(1) except KeyboardInterrupt: observer.stop() observer.join()

然后在VS Code的keybindings.json中设置一个快捷键，让它读取/tmp/latest_formula.tex文件并插入编辑器。这样，整个流程就变成了“截图/保存图片 -> 自动转换 -> 快捷键粘贴”，非常流畅。