当前位置：首页 > news >正文

translategemma-4b-it代码实例：Python requests调用Ollama图文翻译API

news 2026/3/27 4:11:11

translategemma-4b-it代码实例：Python requests调用Ollama图文翻译API

1. 为什么需要图文翻译模型

你有没有遇到过这样的场景：拍下一张国外菜单、说明书或路标照片，想立刻知道上面写了什么？或者收到一封带截图的英文邮件，光靠文字翻译根本没法理解上下文？传统纯文本翻译工具在这里就卡住了——它看不见图。

translategemma-4b-it正是为解决这个问题而生。它不是简单地把文字从一种语言转成另一种，而是能“看懂”图片里的文字内容，再结合上下文精准翻译。更关键的是，它跑在你自己的电脑上，不上传隐私图片，响应快，还能离线使用。

这篇文章不讲大道理，只给你一套真正能跑起来的Python代码。从零开始，用requests调用本地Ollama服务，完成一次完整的图文翻译任务。你不需要懂模型原理，只要会复制粘贴，就能让这张图开口说中文。

2. 模型到底能做什么

2.1 它不是普通翻译器，而是“看图说话”的翻译员

translategemma-4b-it是Google基于Gemma 3系列推出的轻量级多语言翻译模型，专为图文联合理解设计。它支持55种语言互译，但和传统模型最大的不同在于输入方式：

文本输入：一段待翻译的原文（比如英文句子）
图像输入：一张896×896分辨率的图片，模型会自动识别其中的文字区域并提取文本
上下文融合：模型把图片里的文字和你输入的提示词一起理解，输出更准确的译文

举个实际例子：你上传一张英文药品说明书截图，再输入提示词“请将说明书中所有英文内容翻译成简体中文”，它不会只翻你写的这句话，而是先“读”图，再翻译图中所有可识别的英文文本。

2.2 小身材，大能力：为什么选它

体积小：4B参数量，显存占用低，RTX 3060级别显卡就能流畅运行
部署快：Ollama一键拉取，不用配环境、不装CUDA、不编译源码
响应快：本地运行，没有网络延迟，一张图平均3秒内出结果
隐私强：所有图片和文本都在你本机处理，不经过任何第三方服务器

它不像某些云端API那样要上传原图——你的医疗报告、合同截图、孩子作业照片，全程不离开你的电脑。

3. 三步搞定本地部署与调用

3.1 第一步：确认Ollama已安装并运行

打开终端（Mac/Linux）或命令提示符（Windows），输入：

ollama --version

如果看到类似ollama version 0.3.10的输出，说明Ollama已就绪。如果没有，请先去官网下载安装：https://ollama.com/download

接着检查服务是否在运行：

curl http://localhost:11434

正常会返回{"models":[]}或类似JSON，表示Ollama API服务已启动。

3.2 第二步：拉取translategemma-4b-it模型

在终端中执行：

ollama pull translategemma:4b

注意：模型名是translategemma:4b，不是translategemma-4b-it。Ollama官方镜像库使用冒号分隔版本号。

拉取过程约需5–10分钟（取决于网速），完成后可用以下命令验证：

ollama list

你应该能在列表中看到：

NAME TAG SIZE LAST MODIFIED translategemma 4b 3.2 GB 2 weeks ago

3.3 第三步：准备一张测试图

找一张含英文文字的图片，比如：

英文产品包装盒照片
咖啡馆菜单截图
手机设置界面英文截图

用任意工具（如系统自带画图、Photoshop或在线网站）将其调整为896×896 像素，保存为test_image.jpg。这一步很重要——模型对输入尺寸有硬性要求，非896×896会导致报错或识别失败。

小技巧：如果你暂时没合适图片，可以用Python快速生成一张示例图：

from PIL import Image, ImageDraw, ImageFont img = Image.new('RGB', (896, 896), color='white') d = ImageDraw.Draw(img) try: font = ImageFont.truetype("arial.ttf", 48) except: font = ImageFont.load_default() d.text((100, 100), "Welcome to Paris!\nMetro Line 3\nNext stop: République", fill='black', font=font) img.save("test_image.jpg") print("已生成测试图 test_image.jpg")

4. 核心代码：用requests调用图文翻译API

4.1 完整可运行脚本（复制即用）

下面这段Python代码，实现了从读图、编码、构造请求到解析响应的全过程。它不依赖任何额外框架，只用标准库和requests：

import base64 import json import requests def encode_image_to_base64(image_path): """将本地图片转为base64字符串""" with open(image_path, "rb") as image_file: return base64.b64encode(image_file.read()).decode('utf-8') def call_translategemma_api(image_path, prompt_text): """ 调用本地Ollama的translategemma-4b-it模型 :param image_path: 图片路径（896x896 JPG/PNG） :param prompt_text: 翻译指令，例如："请将图中英文翻译为简体中文" :return: 翻译结果字符串 """ # 1. 编码图片 image_b64 = encode_image_to_base64(image_path) # 2. 构造请求体 payload = { "model": "translategemma:4b", "prompt": prompt_text, "images": [image_b64], # 注意：必须是字符串列表 "stream": False, # 关闭流式响应，获取完整结果 "options": { "num_ctx": 2048, # 总上下文长度限制 "temperature": 0.1 # 降低随机性，提升翻译稳定性 } } # 3. 发送POST请求 response = requests.post( "http://localhost:11434/api/chat", headers={"Content-Type": "application/json"}, data=json.dumps(payload), timeout=120 # 给足时间处理图片 ) # 4. 解析响应 if response.status_code == 200: result = response.json() return result.get("message", {}).get("content", "").strip() else: raise Exception(f"API调用失败，状态码：{response.status_code}，响应：{response.text}") # —— 使用示例 —— if __name__ == "__main__": # 替换为你自己的图片路径 image_file = "test_image.jpg" # 翻译指令（清晰、具体、限定输出格式） instruction = ( "你是一名专业翻译员，专注中英互译。" "请严格遵循以下规则：" "1. 只输出目标语言译文，不要任何解释、标注或额外文字；" "2. 保留原文段落结构和标点；" "3. 专业术语按行业惯例翻译（如'Metro'译为'地铁'，'Line 3'译为'3号线'）；" "4. 将图片中的所有英文文本翻译为简体中文。" ) try: translation = call_translategemma_api(image_file, instruction) print(" 翻译完成：") print(translation) except Exception as e: print(" 调用失败：", str(e))

4.2 关键参数说明（避开常见坑）

参数	值	为什么重要
`model`	`"translategemma:4b"`	必须完全匹配Ollama中显示的名称，大小写和冒号都不能错
`images`	`["base64字符串"]`	必须是字符串列表，不是单个字符串，否则API直接报错
`num_ctx`	`2048`	模型最大上下文长度，设太小会截断图片信息，设太大无意义
`temperature`	`0.1`	翻译任务需要确定性输出，温度值越低，结果越稳定一致
`stream`	`False`	启用流式会返回多段JSON，新手难处理；关闭后一次性返回完整结果

避坑提醒：
如果报错{"error":"invalid request: images must be a list of strings", 检查images是否传成了字符串而非列表；
如果返回空或乱码，先用ollama run translategemma:4b在命令行手动测试，确认模型本身工作正常；
图片必须是896×896，其他尺寸即使能跑也会严重降低识别准确率。

5. 实际效果对比：手写 vs 模型翻译

我们用一张真实拍摄的英文咖啡馆菜单（含手写体+阴影）做测试，对比人工翻译与translategemma-4b-it输出：

5.1 原始图片文字（OCR识别后）

Handcrafted Espresso Single Origin Beans Tasting Notes: Citrus, Honey, Dark Chocolate Served in ceramic cup $5.50

5.2 模型输出结果

手工特制意式浓缩咖啡 单一产地咖啡豆 风味描述：柑橘、蜂蜜、黑巧克力 盛装于陶瓷杯中 5.50美元

5.3 对比分析

术语准确：“Espresso”译为“意式浓缩咖啡”（非直译“浓缩咖啡”），符合国内咖啡行业通用译法
结构保留：原文四行，译文也严格保持四行，未合并或拆分
单位规范：$5.50→5.50美元，货币符号位置符合中文习惯
细微提升点：“Handcrafted”译为“手工特制”略显生硬，更自然的说法是“手作”或“匠心制作”，可通过调整提示词优化

这个结果已经远超多数免费OCR+翻译组合（如手机相册自带功能），且全程在本地完成，无需联网、不传图、不付费。

6. 进阶用法：批量处理与多语言切换

6.1 批量翻译多张图片

只需加个循环，就能把整个文件夹的图片一键翻译：

import os from pathlib import Path def batch_translate(folder_path, output_txt="translations.txt"): """批量翻译文件夹内所有JPG/PNG图片""" image_files = list(Path(folder_path).glob("*.jpg")) + list(Path(folder_path).glob("*.png")) with open(output_txt, "w", encoding="utf-8") as f: for i, img_path in enumerate(image_files, 1): print(f"正在处理第 {i}/{len(image_files)} 张：{img_path.name}") try: result = call_translategemma_api(str(img_path), "请将图中英文翻译为简体中文") f.write(f"--- {img_path.name} ---\n{result}\n\n") except Exception as e: f.write(f"--- {img_path.name} ---\n 处理失败：{e}\n\n") print(f" 批量完成，结果已保存至 {output_txt}") # 使用示例 # batch_translate("./menu_photos/", "all_menus_zh.txt")

6.2 切换其他语言对

只需修改提示词中的语言标识即可，无需更换模型：

目标语言	提示词片段示例
日语	`"请将图中英文翻译为日语（ja）"`
法语	`"请将图中英文翻译为法语（fr）"`
西班牙语	`"请将图中英文翻译为西班牙语（es）"`
韩语	`"请将图中英文翻译为韩语（ko）"`

实测提示：模型对欧洲语言支持最稳，亚洲语言（日/韩/中）次之，小语种建议先试单句。所有语言均无需额外下载词典或插件。

7. 常见问题与解决方案

7.1 “Connection refused” 错误

原因：Ollama服务未启动，或端口被占用
解决：
1. 终端执行ollama serve手动启动服务
2. 检查是否其他程序占用了11434端口（Windows用netstat -ano | findstr :11434）
3. Mac用户如遇权限问题，尝试sudo ollama serve

7.2 图片上传后返回“no text detected”

原因：图片分辨率非896×896，或文字区域过小/模糊/反光
解决：
1. 用Python Pillow重采样：
```
from PIL import Image img = Image.open("input.jpg").resize((896, 896), Image.Resampling.LANCZOS) img.save("fixed.jpg")
```
2. 拍照时尽量正对文字，避免斜射光，用手机“文档扫描”模式拍摄

7.3 翻译结果不理想，如何优化

别急着换模型，先试试这三个提示词技巧：

明确角色：开头定义身份，如“你是一名有10年经验的医学翻译专家”
限定格式：强调“仅输出译文，不要解释，不要加引号，不要编号”
补充上下文：告诉模型这是什么场景，如“这是一份儿童疫苗接种说明书，请用家长能理解的语言翻译”

例如优化后的提示词：

你是一名资深医疗翻译，专注儿童健康领域。请将图中英文疫苗说明书翻译为简体中文，要求：1. 使用通俗易懂的家长语言；2. 专业术语首次出现时括号标注英文；3. 仅输出译文，不加任何说明。

8. 总结：它不是玩具，而是你口袋里的翻译专家

translategemma-4b-it的价值，不在于参数多大、榜单排名多高，而在于它把前沿AI翻译能力，压缩进一个你能随时启动、随时关闭、完全掌控的本地工具里。

它不偷看你的隐私照片
它不因网络波动而罢工
它不收月费，不设用量上限
它让你第一次真正体验“所见即所得”的翻译——拍下、发送、读中文，三步完成

这篇文章给你的不止是一段代码，而是一个可立即落地的工作流。现在，你可以：

把它集成进你的笔记软件，截图即译
加入自动化脚本，每天自动翻译海外竞品页面
改造成微信机器人，朋友发图你秒回中文

技术的意义，从来不是堆砌参数，而是让复杂变简单，让不可能变日常。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/323506/

Z-Image-ComfyUI结构化提示词编写模板

DASD-4B-Thinking部署案例：单卡3090部署4B思考模型并支持并发5用户问答

高效解决3D模型跨软件转换问题的4个核心方法

参考FaceFusion思路，GPEN镜像也可版本回滚

零延迟多设备串流指南：用Sunshine打造家庭共享云游戏平台

移相波形输出的艺术：当电子工程遇见音乐合成

[特殊字符] Meixiong Niannian画图引擎移动端适配：PWA渐进式Web应用封装实践

XXMI启动器：跨游戏模组管理工具的技术解析与实践指南

高效获取微博高清图片：批量下载工具的全方位应用指南

ms-swift强化学习初探：GRPO算法实战应用详解

EcomGPT-7B实战案例：中小电商如何用开源模型自动生成Amazon标题与卖点

Qwen3-4B实战：用Streamlit打造流畅的代码生成工具

Qwen3-32B模型量化：C语言底层优化实战

AnimateDiff轻量级T2V工具：比SVD小60%模型体积，启动快3倍

JX3Toy：让剑网3操作自动化的实用指南

VibeThinker-1.5B-WEBUI适合哪些题型？一文说清

阿里达摩院SiameseUIE实战：一键抽取合同关键信息

突破网页资源壁垒：猫抓插件的智能资源嗅探解决方案

SenseVoice Small修复版体验：支持中英日韩粤语自动识别

用AI为TinUI写日期滚动选值框

原神帧率解锁工具完全掌握：从入门到精通的全方位指南

Lingyuxiu MXJ LoRA快速部署：WSL2环境下Ubuntu系统完整安装流程

React Native全面讲解：Flexbox布局在移动端的应用

GLM-4.6V-Flash-WEB实测：一张菜单问出最贵菜是什么

NS-USBLoader完全指南：Switch玩家必备的文件管理神器

屏幕翻译效率工具：无缝体验的跨语言内容解析方案

Youtu-2B学术研究价值：轻量模型创新点解析

ArcGIS与GuidosToolbox协同下的MSPA生态源地精准提取实践

采样步数影响大吗？Live Avatar参数对比实验

3步打造个人音乐中心：MusicFree插件系统完全指南