当前位置：首页 > news >正文

lychee-rerank-mm代码实例：自定义Prompt工程与分数正则提取技巧

news 2026/7/6 18:36:12

lychee-rerank-mm代码实例：自定义Prompt工程与分数正则提取技巧

1. 项目简介与核心价值

想象一下，你有一个包含数百张图片的图库，现在需要快速找出所有“在沙滩上奔跑的金毛犬”的照片。传统的关键词搜索在这里几乎失效，因为你无法为每张图片手动打上“沙滩”、“奔跑”、“金毛犬”的标签。这正是多模态重排序技术大显身手的地方。

今天要介绍的，是一个基于lychee-rerank-mm模型的实战项目。它不是一个简单的演示，而是一个为RTX 4090显卡深度优化的、开箱即用的图文相关性分析系统。它的核心能力是：你输入一段文字描述，它就能自动为你上传的一批图片打分，并按照与文字描述的匹配程度从高到低排序。

这个项目的独特之处在于：

专为RTX 4090优化：充分利用24GB大显存，采用BF16精度推理，在保证打分准确性的同时，实现高效批量处理。
端到端解决方案：从图片上传、模型推理、分数提取到结果可视化排序，全部集成在一个简洁的Streamlit网页界面中，无需任何网络依赖。
智能Prompt与容错处理：通过精心设计的Prompt引导模型输出标准化分数，并用正则表达式进行容错提取，确保排序结果的稳定可靠。

简单来说，它把强大的多模态大模型（Qwen2.5-VL）和专业的重排序模型（Lychee-rerank-mm）打包成了一个“傻瓜式”工具，让你一键实现图库的智能检索。

2. 环境搭建与快速启动

让我们跳过复杂的理论，直接进入实战环节。部署这个项目比你想象的要简单得多。

2.1 基础环境准备

首先，确保你的机器满足以下条件：

显卡：NVIDIA RTX 4090（24GB显存）。这是项目深度优化的目标硬件。
系统：Linux（推荐Ubuntu 20.04/22.04）或 Windows（需配置WSL2）。
Python：版本 3.8 - 3.10。
CUDA：版本 11.8 或 12.1。

2.2 一键部署与启动

项目已经将所有依赖和模型配置封装好。你只需要执行几个简单的命令。

克隆项目代码：

git clone <项目仓库地址> cd lychee-rerank-mm-4090

安装Python依赖：项目提供了一个requirements.txt文件，包含了所有必要的库。
```
pip install -r requirements.txt
```
主要依赖包括：torch（PyTorch深度学习框架）、transformers（加载模型）、streamlit（构建网页界面）、Pillow（处理图片）等。
启动应用：这是最关键的一步，只需要一行命令：
```
streamlit run app.py
```
执行后，控制台会输出一个本地网络地址（通常是http://localhost:8501）。
打开浏览器：将上一步得到的地址复制到浏览器中打开，你就能看到完整的多模态重排序操作界面了。

整个过程无需手动下载模型（代码中已指定模型路径，首次运行会自动下载），也无需复杂的配置。只要环境通顺，几分钟内就能看到可操作的界面。

3. 核心代码解析：Prompt工程与分数提取

这个项目的“智能”核心，藏在后台的代码逻辑里。它主要解决了两个工程上的关键问题：如何让模型输出我们想要的标准化分数，以及如何稳定地提取出这个分数。

3.1 自定义Prompt工程

多模态大模型很强大，但如果你直接问它“这张图片和‘沙滩上的狗’相关吗？”，它可能会回答一段话，比如“是的，很相关，因为图片里有狗和沙滩”。这对于需要精确数值排序的系统来说是不可用的。

我们的策略是，通过设计一个结构化的Prompt（提示词），来“引导”模型按照我们规定的格式输出。下面就是项目中使用的核心Prompt：

def build_rerank_prompt(query_text): prompt = f""" [任务说明] 你是一个专业的图文相关性评分模型。请严格根据用户提供的文本描述，对给定的图片进行相关性打分。 [用户查询] “{query_text}” [评分标准] 1. 分数范围：0到10分，整数。 2. 10分：图片内容与查询描述完全匹配，所有关键元素（主体、动作、场景、属性）都高度一致。 3. 5-9分：图片与查询描述部分匹配，包含核心元素但可能有细节差异。 4. 1-4分：图片与查询描述仅有微弱关联或包含个别元素。 5. 0分：图片内容与查询描述完全无关。 [输出格式] 你必须且只能输出以下格式： 评分：<一个0-10的整数> 理由：<用一句话简要说明评分原因> [现在开始评分] """ return prompt

这个Prompt的设计巧妙之处：

角色定义：开头就告诉模型“你是一个评分模型”，设定其行为模式。
明确指令：将用户查询单独列出，强调评分对象。
量化标准：清晰定义了0-10分每一档分数对应的匹配程度，让模型有据可依。
强制格式：使用“必须且只能输出以下格式”的强约束，极大提高了模型输出格式的稳定性。

通过这样的Prompt，模型返回的文本就会像这样：

评分：8 理由：图片中有狗在沙滩上奔跑，但狗的品种不明确，与“金毛犬”的描述略有差异。

这就为我们后续提取数字“8”创造了条件。

3.2 正则表达式容错提取

即使有好的Prompt，模型输出偶尔也可能出现意外，比如多一个空格、换行符，或者偶尔“不听话”地加了句别的话。我们不能让这些意外导致程序崩溃。因此，我们需要一个健壮（Robust）的分数提取方法。

项目中使用了正则表达式（Regex）来完成这个任务，并考虑了多种容错情况：

import re def extract_score_from_response(model_response): """ 从模型返回的文本中提取相关性分数（0-10）。 采用多模式正则匹配，具备容错能力。 """ # 模式1：最理想的格式 “评分：7” pattern1 = r'评分\s*[:：]\s*(\d{1,2})' # 模式2：格式稍有变化，如 “score: 7” pattern2 = r'(?:score|分数|评分)\s*[:：]?\s*(\d{1,2})' # 模式3：直接匹配0-10之间的数字（兜底策略） pattern3 = r'\b(10|[0-9])\b' response_text = model_response.strip() # 按优先级尝试匹配 match = re.search(pattern1, response_text, re.IGNORECASE) if not match: match = re.search(pattern2, response_text, re.IGNORECASE) if not match: # 用兜底模式，并检查数字是否在0-10范围内 all_numbers = re.findall(pattern3, response_text) for num in all_numbers: if 0 <= int(num) <= 10: return int(num) if match: score = int(match.group(1)) # 最终校验分数范围 if 0 <= score <= 10: return score # 如果所有提取方法都失败，返回默认分0，避免程序中断 return 0

这段代码的容错逻辑：

多模式匹配：设计了三个由严格到宽松的正则模式。优先匹配格式规整的输出，如果不成功，则逐步放宽条件。
范围校验：即使匹配到数字，也会检查它是否在合理的0-10之间。
安全兜底：如果所有尝试都失败，函数会返回一个默认值0。这保证了即使某张图片的评分提取失败，整个批量排序流程也不会中断，这张图片会被排在最后。

这种“引导（Prompt）+ 容错提取（Regex）”的组合拳，是构建稳定、可靠的大模型应用的关键工程实践。

4. 实战应用：从代码到界面操作

理解了后台原理，我们再回到前端界面，看看这些代码如何转化为用户友好的操作。整个流程被简化为三个步骤。

4.1 第一步：输入你的搜索意图

在网页左侧的侧边栏，你会看到一个输入框。在这里，用自然语言描述你想找的图片。

好的描述：“会议室里正在做PPT演示的白领”
更好的描述：“阳光充足的客厅，有一张灰色的布艺沙发和绿植”（包含了环境、主体物体、颜色、附属物）
支持中英文：你可以输入“A black cat sleeping on a windowsill”，效果一样。

技巧：描述越具体、包含的细节越多，模型打分和排序的结果就越精准。

4.2 第二步：批量上传待筛选图片

在网页主区域的上方，有一个文件上传区域。点击后，你可以从电脑里选择多张图片（支持Ctrl或Shift键多选）。这模拟了从你的图库中选出一批候选图片的场景。

格式：支持 JPG, PNG, JPEG, WEBP 等常见格式。
数量：建议至少上传2张以上，才能看到排序效果。RTX 4090的强大性能可以轻松处理几十张图片的批量分析。

4.3 第三步：一键智能重排序

点击侧边栏醒目的“开始重排序”按钮。接下来，系统会自动完成所有工作：

界面会显示一个进度条，告诉你当前正在分析第几张图片。
后台代码会依次将每张图片和你的文字描述，组合成我们之前设计好的Prompt，送给模型去打分。
利用正则表达式从模型的回复中提取分数。
所有图片分析完毕后，按照分数从高到低自动排序。

4.4 查看与解读结果

结果会以整洁的网格形式展示在主界面下方：

排名与分数：每张图片下方都标有它的排名（Rank）和得分（Score）。分数越高，代表与你的文字描述越匹配。
冠军高亮：得分最高的图片会被一个醒目的边框框起来，让你一眼找到最相关的结果。
追溯详情：你可以点击任何一张图片下方的“模型输出”展开按钮，查看模型给出的原始评分和理由。这对于调试和深度理解模型行为非常有帮助。

例如，你搜索“雪地里的哈士奇”，得分最高的图片可能是一只哈士奇在雪中奔跑（评分9），而一张哈士奇在室内的照片得分可能较低（评分2），一张猫的图片则可能得0分。这个可视化结果让你对图库内容与搜索意图的相关性一目了然。

5. 总结

通过这个lychee-rerank-mm的实战项目，我们不仅看到了多模态重排序技术的直接应用，更学习到了构建此类应用的两个核心工程技巧：

精细化Prompt工程：通过设计结构清晰、指令明确的Prompt，我们可以有效地“规训”大模型，让其输出格式稳定、符合业务需求的内容，这是将大模型能力接入实际工作流的第一步。
鲁棒的后处理逻辑：使用正则表达式进行多模式、容错的数据提取，并为异常情况设置安全兜底，这确保了应用程序的稳定性和用户体验，不会因为模型的偶然性输出而崩溃。

这个项目提供了一个完整的范本，它将强大的AI模型、针对性的硬件优化、实用的工程技巧和友好的用户界面结合在一起。你可以直接使用它来管理你的个人图库，也可以借鉴其代码设计思路，将其核心的排序能力集成到更复杂的业务系统中，例如电商平台的商品图搜索、内容平台的素材推荐，或是安防系统的视频关键帧检索等场景。