当前位置：首页 > news >正文

translategemma-27b-it代码实例：批量处理微信聊天截图生成双语会议纪要

news 2026/3/27 7:44:57

translategemma-27b-it代码实例：批量处理微信聊天截图生成双语会议纪要

1. 引言：从繁琐到高效，一个翻译模型如何改变你的工作流

想象一下这个场景：一场重要的线上会议结束了，你的微信群里留下了几十张密密麻麻的聊天截图，里面包含了会议的核心讨论、决策要点和待办事项。现在，你需要整理一份清晰的双语会议纪要，既要给国内同事看中文版，又要给海外团队提供英文版。

传统做法是什么？你可能会：

一张张打开截图，手动把中文内容敲进文档。
打开翻译软件或网页，一段段复制粘贴进行翻译。
反复核对翻译的准确性，调整语序和术语。
最后将中英文对照排版。

整个过程耗时耗力，枯燥且容易出错。有没有一种方法，能让电脑自动“看懂”这些截图里的文字，并精准地翻译成英文，甚至直接生成结构化的双语文档？

今天要介绍的，就是基于 Ollama 部署的translategemma-27b-it模型，它能完美解决这个问题。这不是一个简单的文本翻译工具，而是一个能“看图说话”的图文对话翻译模型。你给它一张包含文字的图片，它就能直接输出目标语言的译文。

本文将手把手带你，利用这个强大的模型，构建一个自动化流水线，实现微信聊天截图 → 批量文字提取与翻译 → 生成中英双语会议纪要的全过程。你会发现，原来令人头疼的文书工作，几行代码就能轻松搞定。

2. 认识我们的核心工具：translategemma-27b-it

在开始动手之前，我们先快速了解一下即将使用的“瑞士军刀”。

2.1 模型简介：轻量且强大的多语言翻译专家

translategemma-27b-it是 Google 基于 Gemma 3 模型系列推出的开源翻译模型。它的设计目标非常明确：成为一个高效、准确的多语言翻译专家，并且足够“轻”，能在普通电脑上流畅运行。

核心能力：它专为翻译任务而生，支持包括中文、英文在内的 55 种语言互译。
独特优势：它不仅接受纯文本输入，更能直接处理图片。你可以把它理解为一个“视觉翻译官”，它能识别图片中的文字内容，然后进行翻译。
技术特点：模型会将输入的图片统一处理为 896x896 分辨率，整个系统的上下文长度为 2K token，足以应对大多数段落翻译和截图内容。
部署友好：得益于其轻量化设计，通过 Ollama 可以非常容易地在本地（你的笔记本电脑或台式机）一键部署和运行，无需复杂的云端 API 调用和付费。

简单来说，translategemma-27b-it = 光学字符识别（OCR） + 高质量神经机器翻译（NMT）。它省去了你先用 OCR 工具识别文字，再粘贴到翻译工具的两个步骤，实现了端到端的“图到文”翻译。

2.2 快速上手：在 Ollama 中与模型对话

如果你已经安装好 Ollama，使用这个模型非常简单。

拉取模型：在终端中运行ollama run translategemma:27b。Ollama 会自动下载并启动模型。

交互翻译：启动后，你会进入一个对话界面。你可以直接输入指令，例如：

你是一名专业的中文（zh-Hans）至英语（en）翻译员。你的目标是准确传达原文的含义与细微差别，同时遵循英语语法、词汇及文化敏感性规范。 仅输出英文译文，无需额外解释或评论。请将图片的中文文本翻译成英文： [这里粘贴你的图片文件路径，或等待上传]

上传图片：根据 Ollama 客户端的提示（通常是拖拽或指定路径），将你的微信聊天截图提供给模型。
获取结果：模型会直接输出图片中文字的英文翻译。

这种交互方式对于单张图片测试非常方便。但我们的目标是批量处理，这就需要用到代码来驱动了。

3. 实战构建：批量处理微信截图生成会议纪要

我们将使用 Python 来编写这个自动化脚本。整个流程分为四个步骤：准备环境、读取图片、调用模型翻译、整理输出。

3.1 环境准备与依赖安装

首先，确保你的电脑上已经安装了 Ollama 并且translategemma:27b模型可用（通过ollama list命令查看）。

然后，我们创建一个 Python 项目并安装必要的库。主要用到requests来与 Ollama 的本地 API 进行通信。

# 在你的项目目录下，安装所需库 pip install requests pillow

requests: 用于发送 HTTP 请求到 Ollama API。
pillow(PIL): 一个强大的图像处理库，这里我们主要用于获取图片信息（可选，用于更复杂的图片预处理）。

3.2 核心代码：与 Ollama API 交互

Ollama 提供了一个本地 REST API（默认在http://localhost:11434），让我们可以通过代码来调用模型。

下面是一个核心函数，用于发送一张图片到translategemma-27b-it模型并获取翻译结果。

import requests import base64 import os def translate_image_with_gemma(image_path, prompt_template, ollama_host="http://localhost:11434"): """ 将单张图片发送给 Ollama 部署的 translategemma 模型进行翻译。 参数: image_path (str): 本地图片文件的路径。 prompt_template (str): 翻译指令提示词模板。 ollama_host (str): Ollama 服务地址，默认为本地。 返回: str: 模型返回的翻译文本，如果出错则返回 None。 """ # 1. 读取图片文件并编码为 base64 try: with open(image_path, "rb") as image_file: image_data = base64.b64encode(image_file.read()).decode('utf-8') except FileNotFoundError: print(f"错误：找不到图片文件 {image_path}") return None # 2. 构建请求数据 # 注意：Ollama API 期望的图片数据格式是包含MIME类型的Data URL格式 image_data_url = f"data:image/jpeg;base64,{image_data}" # 将图片数据嵌入到提示词中。模型约定使用 `[image]` 标记来表示图片位置。 # 我们也可以直接将 base64 数据放在提示词里，但使用标记更清晰。 # 根据模型文档，我们可以将图片数据直接拼接在提示词后。 full_prompt = f"{prompt_template}\n{image_data_url}" payload = { "model": "translategemma:27b", "prompt": full_prompt, "stream": False # 我们一次性获取完整响应，而非流式 } # 3. 发送 POST 请求到 Ollama API try: response = requests.post(f"{ollama_host}/api/generate", json=payload) response.raise_for_status() # 检查HTTP错误 result = response.json() return result.get("response", "").strip() except requests.exceptions.RequestException as e: print(f"API 请求失败: {e}") return None except KeyError: print("API 响应格式异常。") return None # 定义我们的翻译指令提示词 TRANSLATION_PROMPT = """你是一名专业的中文（zh-Hans）至英语（en）翻译员。你的目标是准确传达原文的含义与细微差别，同时遵循英语语法、词汇及文化敏感性规范。 仅输出英文译文，无需额外解释或评论。请将图片中的中文文本翻译成英文："""

代码解释：

函数translate_image_with_gemma是核心。它读取本地图片，转换为 base64 编码。
构建一个符合 Ollama API 格式的请求。关键是将图片的 base64 数据直接拼接在我们定义好的翻译指令提示词后面。
发送请求到http://localhost:11434/api/generate，指定模型为translategemma:27b。
解析返回的 JSON，提取出response字段，这就是模型的翻译结果。

3.3 批量处理与会议纪要生成

现在，我们将核心函数应用到批量处理上，并整理最终输出。

import glob from datetime import datetime def batch_translate_wechat_screenshots(screenshot_folder, output_file="meeting_minutes_bilingual.md"): """ 批量处理一个文件夹内的微信聊天截图，生成双语会议纪要。 参数: screenshot_folder (str): 存放微信截图图片的文件夹路径。 output_file (str): 输出的双语纪要文件路径。 """ # 1. 查找文件夹中所有的图片文件（支持常见格式） image_extensions = ['*.png', '*.jpg', '*.jpeg', '*.bmp', '*.gif'] image_paths = [] for ext in image_extensions: image_paths.extend(glob.glob(os.path.join(screenshot_folder, ext))) if not image_paths: print(f"在文件夹 {screenshot_folder} 中未找到图片文件。") return print(f"找到 {len(image_paths)} 张图片，开始处理...") # 2. 按文件名排序，假设截图是按时间顺序命名的 image_paths.sort() all_translations = [] processed_count = 0 # 3. 遍历每张图片，调用翻译函数 for img_path in image_paths: print(f"正在处理: {os.path.basename(img_path)}") translation = translate_image_with_gemma(img_path, TRANSLATION_PROMPT) if translation: # 存储结果：文件名、原文（这里需要OCR，但模型已处理，我们存个占位符或后续用OCR库获取）、译文 # 注意：当前模型只返回译文。如需精确原文，可搭配OCR库如pytesseract，但会增加复杂度。 # 这里我们假设用户已有截图原文，或仅保存译文。 all_translations.append({ "image": os.path.basename(img_path), # "original_text": "[原文需通过独立OCR获取]", "translated_text": translation }) processed_count += 1 else: print(f" 处理失败: {os.path.basename(img_path)}") print("---") # 4. 生成并保存双语会议纪要 Markdown 文件 with open(output_file, 'w', encoding='utf-8') as f: f.write(f"# 会议双语纪要\n") f.write(f"**生成时间**: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n") f.write(f"**处理截图数**: {processed_count}/{len(image_paths)}\n\n") f.write("---\n\n") for i, item in enumerate(all_translations, 1): f.write(f"## 截图 {i}: `{item['image']}`\n\n") # f.write(f"**原文**: \n{item['original_text']}\n\n") # 如果使用OCR获取了原文 f.write(f"**英文译文**: \n{item['translated_text']}\n\n") f.write("---\n\n") print(f"处理完成！双语会议纪要已保存至: {output_file}") # 使用示例：假设你的微信截图都放在当前目录下的 `wechat_screenshots` 文件夹 if __name__ == "__main__": screenshot_dir = "./wechat_screenshots" # 修改为你的截图文件夹路径 batch_translate_wechat_screenshots(screenshot_dir)

脚本工作流程：

收集图片：扫描指定文件夹下的所有图片文件。
顺序处理：对图片按文件名排序后，逐一调用我们之前写好的翻译函数。
保存结果：将每张图片的翻译结果（译文）存储下来。
生成文档：将所有结果写入一个 Markdown 文件，清晰标注出处（截图文件名）和对应的英文翻译，形成一份结构化的双语纪要。

3.4 运行与结果展示

将你的微信聊天截图保存到一个文件夹，例如wechat_screenshots。
将上面的两段代码保存为一个 Python 文件，例如wechat_translator.py。
确保 Ollama 服务正在运行（终端中ollama serve或后台运行）。
在终端运行脚本：
```
python wechat_translator.py
```
脚本会自动处理文件夹内的所有图片，并在同级目录下生成一个名为meeting_minutes_bilingual.md的文件。

生成的 Markdown 文件内容大致如下：

# 会议双语纪要 **生成时间**: 2023-10-27 15:30:00 **处理截图数**: 5/5 --- ## 截图 1: `chat_1.png` **英文译文**: John: Has everyone reviewed the Q3 performance report? Alice: Yes, I have. The growth in the European market is impressive. Bob: I agree. But we need to discuss the budget overrun in the APAC region. --- ## 截图 2: `chat_2.png` **英文译文**: Action Items: 1. Alice to finalize the EU market expansion plan by next Friday. 2. Bob to provide a detailed analysis of APAC costs by Wednesday. 3. All to prepare slides for the board meeting next month. --- ...(后续截图)...

现在，你只需要将这份 Markdown 文件中的英文部分复制出来，与原始中文截图对照，或者利用简单的脚本将中文原文（如果你通过其他方式提取了）与译文并列排版，一份完整的双语会议纪要就诞生了。