当前位置：首页 > news >正文

Youtu-VL-4B-Instruct效果展示：中英文混排菜单图OCR+菜品推荐文案生成

news 2026/5/12 18:57:05

Youtu-VL-4B-Instruct效果展示：中英文混排菜单图OCR+菜品推荐文案生成

1. 引言：当AI看懂你的菜单

想象一下这个场景：你是一家餐厅的老板，每天都要处理大量顾客发来的菜单照片，询问“这个菜辣不辣？”、“有什么推荐吗？”。或者你是一个美食博主，需要快速从一张复杂的菜单图片里提取信息，然后创作出吸引人的推荐文案。

以前，这需要人工一个字一个字地敲，费时费力还容易出错。但现在，情况不一样了。

今天我要给大家展示的，是腾讯优图实验室开源的Youtu-VL-4B-Instruct模型。别看它只有40亿参数，是个“轻量级”选手，但它在“看懂”图片这件事上，能力相当惊人。特别是处理那种中英文混排、排版复杂的菜单图片，它能做到两件事：

精准识别：把图片里的文字，不管是中文、英文还是混在一起的，都准确地“读”出来。
智能创作：基于识别出的菜单内容，自动生成吸引人的菜品推荐文案。

这不仅仅是简单的文字识别（OCR），而是真正的“理解”+“创作”。接下来，我就用几个真实的案例，带大家看看它的实际效果到底有多强。

2. 模型能力速览：小而精的多面手

在深入案例之前，我们先快速了解一下这位“选手”的基本功。Youtu-VL-4B-Instruct 基于一个叫 VLUAS 的独特架构设计，这让它在理解和关联图片与文字信息时特别高效。

它的核心能力可以概括为以下几点：

火眼金睛的OCR：对图片中的文字识别非常拿手，尤其是中文和英文，即使它们交错排列在复杂的背景上。
深度的图片理解：不止于“看到”，更能“看懂”。它能理解图片中的物体、场景、布局，甚至能回答关于图片内容的复杂问题。
多模态推理：这是它的绝活。能把看到的视觉信息和你的文字问题结合起来，进行逻辑推理。比如，你问“图片里最贵的菜是什么？”，它需要先识别所有菜品和价格，然后再进行比较判断。
流畅的语言生成：在准确理解信息后，能用通顺、自然的语言进行回复或创作，比如为我们生成菜品推荐文案。

简单来说，它就像一个同时具备优秀视力、强大脑力和出色文笔的助手。下面，我们就让它正式“上岗”，处理一些真实任务。

3. 实战效果展示：从复杂菜单到精彩文案

我找了几张风格各异、排版复杂的餐厅菜单图片，直接丢给 Youtu-VL-4B-Instruct，看看它的表现。

3.1 案例一：精致西餐厅菜单

我首先上传了一张典型的高档西餐厅菜单图片，背景雅致，文字采用了优雅的衬线字体，中英文菜品名和描述交错排列。

我的指令是：“请识别这张菜单图片中的所有文字内容，并从中推荐一道最适合作为‘主菜’的菜品，为它生成一段吸引人的推荐文案（用于社交媒体宣传）。”

模型在几秒钟内就给出了回复：

首先，它准确地识别出了全部内容：

【前菜 Appetizers】 - 香煎鹅肝配波特酒汁 Pan-seared Foie Gras with Port Wine Reduction ... ¥198 - 法式焗蜗牛 Escargots à la Bourguignonne ... ¥168 【主菜 Main Courses】 - 澳洲M5和牛西冷牛排 Australian M5 Sirloin Steak (300g) ... ¥688 配黑胡椒汁或红酒汁，可选薯条或烤蔬菜。 - 香烤银鳕鱼配柠檬黄油汁 Roasted Cod with Lemon Butter Sauce ... ¥358 搭配时令蔬菜和土豆泥。 - 松露野菌意大利面 Truffle Wild Mushroom Pasta ... ¥228 【甜品 Desserts】 - 法式焦糖布丁 Crème Brûlée ... ¥98 - 巧克力熔岩蛋糕 Chocolate Lava Cake ... ¥108

接着，它进行了推荐和创作：

推荐菜品：澳洲M5和牛西冷牛排
推荐文案： “今夜的主角，来自澳洲牧场的M5级和牛西冷。恰到好处的油花分布，经过厨师的精准煎烤，化为入口即化的柔嫩与满口脂香。外表是诱人的焦褐脆壳，内里则保持着完美的粉红色泽，每一刀切下都是汁水丰盈的视觉享受。搭配经典黑胡椒汁或馥郁红酒汁，佐以金黄酥脆的薯条或清新烤蔬菜，成就一份无可挑剔的牛排盛宴。¥688，为您献上顶级肉食的纯粹感动。”

效果分析：

OCR精度高：所有菜品名称（中英文）、价格、甚至配菜描述等细节文字都被完整、准确地提取，没有出现乱码或错别字。
理解准确：它正确理解了“主菜”这一类别，并从“Main Courses”栏目中进行了选择。
推荐合理：在众多主菜中，它选择了价格最高、通常也被视为最顶级的“M5和牛牛排”进行推荐，这符合高档餐厅的营销逻辑。
文案质量上乘：生成的文案并非简单罗列信息，而是运用了“主角”、“脂香”、“视觉享受”、“纯粹感动”等富有感染力的词汇，描述了口感、视觉和体验，完全达到了社交媒体宣传文案的标准。

3.2 案例二：活泼的亚洲融合菜菜单

第二张图是一个现代亚洲融合餐厅的菜单，设计更活泼，使用了图标和彩色标签，菜品名创意十足，中英文混合更加随意。

我的指令更具体一些：“识别菜单内容。假设一位顾客想吃‘辣味’且‘有海鲜’的菜，请根据菜单为他推荐一道，并生成一段简短有趣的菜品介绍（适合用于在线点餐平台的菜品详情页）。”

模型的回复如下：

精准的OCR结果：

【招牌推荐 Signature】 - “火山”拉面 Volcano Ramen 🌶️🌶️ ... ¥78 特制辣肉酱、溏心蛋、海苔、叉烧。 - 泰式酸辣虾沙拉 Thai Spicy Shrimp Salad 🌶️ ... ¥65 【主菜 Mains】 - 新加坡辣椒蟹意面 Singapore Chili Crab Pasta 🌶️🌶️ ... ¥128 新鲜蟹肉、微辣番茄奶油酱、意大利面。 - 照烧三文鱼碗 Teriyaki Salmon Bowl ... ¥98 - 绿咖喱鸡饭 Green Curry Chicken Rice 🌶️ ... ¥88 【小食 Snacks】 - 酥炸鱿鱼圈 Crispy Calamari ... ¥58

智能推荐与创作：

推荐菜品：新加坡辣椒蟹意面
菜品介绍： “一场大胆的东西方风味碰撞！灵感来自新加坡国菜‘辣椒蟹’，我们将其精髓融入意大利面中。每日新鲜拆取的蟹肉，裹上独家秘制的微辣番茄奶油酱，咸鲜、甜辣与奶香交织出复杂而和谐的滋味。每一根意面都挂满浓稠酱汁，口感层次丰富，辣度温和而持久，足以唤醒味蕾却不过分刺激。🌶️🌶️ 喜欢海鲜与微辣口味的您，绝对不容错过这份创意满满的融合美味！”

效果分析：

复杂排版应对自如：菜单中的辣椒表情图标（🌶️）也被正确识别并保留，这对于理解菜品辣度至关重要。
多条件过滤：模型完美执行了“辣味”且“有海鲜”的双重筛选条件。它排除了仅辣无海鲜的“火山拉面”、“绿咖喱鸡饭”，也排除了有海鲜但不辣的“照烧三文鱼碗”和“酥炸鱿鱼圈”，精准锁定了“新加坡辣椒蟹意面”。
文案风格匹配：生成的介绍使用了“风味碰撞”、“唤醒味蕾”等活泼、现代的语言，并巧妙融入了“🌶️🌶️”视觉元素，非常符合融合餐厅的调性和线上点餐平台的展示需求。
体现了推理能力：这个任务需要模型先识别所有信息，再根据两个条件进行逻辑交叉筛选，最后组织语言描述，展现了其多模态推理能力。

3.3 案例三：纯文字识别与摘要

最后，我测试了它处理大段纯文字菜单的能力。上传了一张包含详细菜品描述和原料列表的图片。

我的指令是：“提取图片中的所有文本，并总结出这份菜单中所有使用到‘牛肉’的菜品。”

模型交出了这样的答卷：

完整的文本提取：

慢炖安格斯牛肋排 Braised Angus Beef Short Ribs 选用澳洲安格斯牛肋排，经过长达6小时的低温慢炖，肉质酥烂脱骨。搭配浓郁的红酒烧汁和土豆泥。 原料：安格斯牛肋排、红酒、洋葱、胡萝卜、香料。 价格：¥256 和牛汉堡 Wagyu Beef Burger 100%纯和牛肉饼，厚实多汁，搭配焦糖洋葱、车达芝士和秘制汉堡酱。附薯条或沙拉。 原料：和牛肉饼、汉堡胚、洋葱、芝士、生菜、番茄。 价格：¥138 番茄罗勒意面 Tomato Basil Pasta ... （其他非牛肉菜品省略）

清晰的总结：

根据菜单内容，使用到“牛肉”的菜品有以下两道：
慢炖安格斯牛肋排：主要原料为安格斯牛肋排。
和牛汉堡：主要原料为和牛肉饼。

效果分析：

信息提取完整：长段的描述性文字、原料列表、价格等信息都被完整、结构化地提取出来。
语义理解与筛选：模型并非简单地进行关键词匹配。它理解了“安格斯牛肋排”和“和牛肉饼”都属于“牛肉”的范畴，并进行了准确归类。这比简单的文本搜索“牛肉”二字要智能得多。
输出结构化：回答以清晰的列表形式呈现，一目了然，实用性很强。

4. 如何实现：技术路径简述

看了这么多惊艳的效果，你可能会好奇这背后是怎么实现的。其实，借助已经部署好的 CSDN 星图镜像，这个过程非常简单。

4.1 通过 WebUI 快速体验

对于大多数想快速尝试的用户，Gradio WebUI 是最佳选择。

访问界面：在浏览器中打开服务地址（例如http://localhost:7860）。
上传图片：点击上传区域，选择你的菜单图片。
输入指令：在聊天框中，用自然语言描述你的需求。比如：“识别这张菜单里的所有菜名和价格”或“根据这张菜单，写一个推荐招牌菜的帖子”。
获取结果：点击发送，模型就会像上面的案例一样，返回识别结果和生成的文案。

整个过程就像和一个聪明的助手聊天，无需任何代码。

4.2 通过 API 集成到你的系统

如果你需要将这项能力集成到自己的点餐系统、内容创作工具或客服机器人里，可以使用其提供的 OpenAI 兼容 API。

以下是一个简单的 Python 示例，演示如何通过 API 完成“识别+推荐”任务：

import base64 import httpx def analyze_menu_and_recommend(image_path: str, user_prompt: str): """上传菜单图片并获取智能回复""" # 1. 将图片转换为base64编码 with open(image_path, "rb") as f: img_base64 = base64.b64encode(f.read()).decode() # 2. 构建请求，图片和文本指令一起发送 response = httpx.post( "http://localhost:7860/api/v1/chat/completions", json={ "model": "Youtu-VL-4B-Instruct-GGUF", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": [ { "type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{img_base64}"} }, { "type": "text", "text": user_prompt # 例如：“识别菜单并推荐一道适合午餐的菜品。” } ] } ], "max_tokens": 1024 # 控制生成文本的长度 }, timeout=60 # 设置超时时间 ) # 3. 解析并返回结果 result = response.json() return result["choices"][0]["message"]["content"] # 使用函数 menu_image = "my_restaurant_menu.jpg" prompt = "请识别这张菜单中的所有内容，并为其中一道素食主菜创作一句广告语。" result = analyze_menu_and_recommend(menu_image, prompt) print(result)

通过这样的 API 调用，你可以轻松地将强大的菜单理解与文案生成能力，嵌入到任何自动化流程中。