当前位置：首页 > news >正文

SiameseUniNLU实战案例：多模态内容审核——图文匹配度评分+文本敏感词+图像违规特征联合决策

news 2026/6/7 6:27:56

SiameseUniNLU实战案例：多模态内容审核——图文匹配度评分+文本敏感词+图像违规特征联合决策

1. 引言：当内容审核遇上多模态AI

想象一下，你运营着一个大型的内容社区，每天有成千上万的图文帖子需要审核。一张看似普通的风景图，配文却是违规广告；一段看似无害的文字，搭配的图片却暗藏玄机。传统的审核方式，要么依赖人工逐条检查，效率低下且成本高昂；要么使用单一的文本或图片审核工具，容易“顾此失彼”，让违规内容钻了空子。

这就是多模态内容审核要解决的痛点。它不再是孤立地看文字或图片，而是像人一样，综合理解“图文搭配”的整体含义。今天，我要分享的实战案例，就是利用SiameseUniNLU这个强大的通用自然语言理解模型，构建一个智能的多模态内容审核系统。这个系统能同时做三件事：

图文匹配度评分：判断图片和文字描述是否“表里如一”，防止“挂羊头卖狗肉”。
文本敏感词识别：精准揪出文字中的违规、广告、涉政等敏感信息。
图像违规特征抽取：从图片描述文字中，识别出可能暗示违规内容的实体（如违禁品、不当行为等）。

通过这三者的“联合决策”，我们能大幅提升审核的准确性和效率。下面，我就带你从零开始，手把手搭建并应用这个系统。

2. SiameseUniNLU：一把瑞士军刀式的NLP模型

在深入实战前，有必要快速了解一下我们手中的“利器”——SiameseUniNLU。

你可以把它理解为一套基于提示（Prompt）的万能NLP工具。它的核心思想很巧妙：通过设计不同的任务提示（Schema），让同一个模型去适应多种不同的自然语言理解任务，比如从一段话里找出人名地名（命名实体识别），或者判断两句话是不是一个意思（文本匹配）。

对我们这个项目来说，它的两大特性至关重要：

统一处理框架：我们不需要为“找敏感词”、“判断图文关系”、“抽图片特征”分别训练三个模型。只需要设计三种不同的提示（Schema），同一个SiameseUniNLU模型就能全部搞定，极大地简化了部署和维护。
强大的信息抽取能力：它采用的指针网络能精准地定位文本中的片段。这意味着，它不仅能判断有没有敏感词，还能准确地告诉我们敏感词是什么、出现在哪里。

模型已经预置在环境中，路径是/root/ai-models/iic/nlp_structbert_siamese-uninlu_chinese-base。我们的所有实战都将基于它展开。

3. 快速部署：让模型服务跑起来

理论说再多，不如实际跑起来。部署SiameseUniNLU服务非常简单。

3.1 一键启动服务

打开终端，进入模型目录，一条命令就能启动Web服务：

cd /root/nlp_structbert_siamese-uninlu_chinese-base python3 app.py

服务启动后，你会看到输出提示，告诉我们服务运行在http://localhost:7860。直接在浏览器打开这个地址，就能看到一个简洁的Web界面，可以手动输入文本和Schema进行测试。

对于长期运行，建议使用后台模式：

nohup python3 app.py > server.log 2>&1 &

这样服务就在后台运行了，日志会记录在server.log文件里。你可以用tail -f server.log来实时查看运行状态。

3.2 核心：理解和使用API

这个服务的核心是一个HTTP API接口，地址是http://localhost:7860/api/predict。我们所有的程序化调用都通过它进行。

它接收一个JSON格式的请求，主要包含两个字段：

text: 需要分析的文本内容。
schema: 定义要执行什么任务的提示（Prompt），是一个JSON字符串。

下面是一个最基础的Python调用示例，识别文本中的人物和地点：

import requests import json # API地址 url = "http://localhost:7860/api/predict" # 准备请求数据：识别‘人物’和‘地理位置’ data = { "text": "谷爱凌在北京冬奥会自由式滑雪女子大跳台项目中夺得金牌。", "schema": '{"人物": null, "地理位置": null}' # Schema定义要抽取的实体类型 } # 发送请求 response = requests.post(url, json=data) result = response.json() print(json.dumps(result, indent=2, ensure_ascii=False))

执行结果会类似这样：

{ "text": "谷爱凌在北京冬奥会自由式滑雪女子大跳台项目中夺得金牌。", "schema": {"人物": null, "地理位置": null}, "output": { "人物": ["谷爱凌"], "地理位置": ["北京"] } }

看，模型成功找出了“谷爱凌”和“北京”。这个schema就是我们指挥模型干活的“指令”。接下来，我们就设计三条关键的“指令”，来构建我们的审核系统。

4. 实战构建：三合一审核系统的核心逻辑

我们的多模态审核流水线如下图所示，核心是三次对SiameseUniNLU模型的API调用，分别执行不同的任务：

flowchart TD A[输入: 图片描述文本+配文] --> B[任务一: 图文匹配度判断] A --> C[任务二: 文本敏感词识别] A --> D[任务三: 图像违规特征抽取] B --> E{匹配度是否过低?} C --> F{是否含敏感词?} D --> G{是否含违规特征?} E --> H[联合决策引擎] F --> H G --> H H --> I[最终审核结果<br>通过/拒绝/人工复核]

4.1 任务一：图文匹配度评分

目标：判断用户上传的图片描述（或AI识别的图片关键信息）与用户输入的配文是否相关。思路：将图文匹配问题转化为一个文本蕴含或文本匹配任务。我们可以设计一个Prompt，让模型判断“配文”是否可以从“图说”中推理出来。

Schema设计示例：我们让模型做三分类：高相关、低相关、无关。

{"图文相关性": null}

输入格式：这里需要遵循模型对分类任务的输入要求，将类别和文本用|分隔。

高相关,低相关,无关|图说: 一只白色的猫在沙发上睡觉。 配文: 我家猫咪的慵懒午后时光。

Python实现代码：

def check_image_text_match(image_description, user_caption): """ 检查图片描述与用户配文的匹配度 :param image_description: 图片描述（可从AI图像识别接口获得） :param user_caption: 用户输入的配文 :return: 匹配度标签和置信度 """ url = "http://localhost:7860/api/predict" # 构建分类任务输入 input_text = f"高相关,低相关,无关|图说: {image_description}。 配文: {user_caption}。" schema = '{"图文相关性": null}' data = {"text": input_text, "schema": schema} try: response = requests.post(url, json=data, timeout=5) result = response.json() # 结果格式如：{"output": {"图文相关性": ["高相关"]}} label = result.get("output", {}).get("图文相关性", ["未知"])[0] # 在实际应用中，模型可能返回置信度，这里简化为返回标签 return label except Exception as e: print(f"图文匹配度检查失败: {e}") return "检查失败" # 示例调用 image_desc = "一场激烈的足球比赛，球员在绿茵场上奔跑" user_post = "转发抽奖！点击链接领取红包！" # 典型的“图文不符”广告 match_result = check_image_text_match(image_desc, user_post) print(f"图文匹配度: {match_result}") # 预期输出: 低相关 或 无关

4.2 任务二：文本敏感词识别

目标：精准识别配文中的敏感实体，如垃圾广告、违规产品、涉政人物等。思路：这是一个典型的命名实体识别任务。我们可以预先定义好几类我们需要关注的敏感实体。

Schema设计示例：

{"广告营销": null, "违规产品": null, "涉政实体": null}

输入格式：直接输入待审核的文本即可。

Python实现代码：

def check_text_sensitive(content): """ 检查文本内容中的敏感实体 :param content: 待审核的文本 :return: 识别的敏感实体字典 """ url = "http://localhost:7860/api/predict" schema = '{"广告营销": null, "违规产品": null, "涉政实体": null}' data = {"text": content, "schema": schema} try: response = requests.post(url, json=data, timeout=5) result = response.json() sensitive_entities = result.get("output", {}) # 过滤空结果 filtered_entities = {k: v for k, v in sensitive_entities.items() if v} return filtered_entities except Exception as e: print(f"文本敏感词检查失败: {e}") return {} # 示例调用 test_text = "最新赌博工具，加V信123456领取，绝对安全可靠。某国家领导人视察工作。" sensitive_found = check_text_sensitive(test_text) print("发现的敏感实体:", sensitive_found) # 预期输出可能包含: {"广告营销": ["加V信123456"], "违规产品": ["赌博工具"], "涉政实体": ["某国家领导人"]}

4.3 任务三：图像违规特征抽取

目标：从图片的描述性文字中，抽取可能暗示图片违规的实体特征。思路：同样是命名实体识别，但目标实体类型不同。我们关注图片中可能出现的违规物品、行为、场景。

Schema设计示例：

{"违禁品": null, "不当行为": null, "敏感场景": null}

输入格式：输入图片的描述文本。这个描述可以来自用户输入，更推荐使用AI图像识别模型（如目标检测、图像描述生成模型）自动生成，更客观。

Python实现代码：

def extract_image_violation_features(image_description): """ 从图片描述中抽取违规特征实体 :param image_description: 图片描述文本 :return: 违规特征实体字典 """ url = "http://localhost:7860/api/predict" schema = '{"违禁品": null, "不当行为": null, "敏感场景": null}' data = {"text": image_description, "schema": schema} try: response = requests.post(url, json=data, timeout=5) result = response.json() violation_features = result.get("output", {}) filtered_features = {k: v for k, v in violation_features.items() if v} return filtered_features except Exception as e: print(f"图像特征抽取失败: {e}") return {} # 示例调用 # 假设图像识别模型生成了如下描述 ai_image_desc = "图片中有多把刀具和棍棒散落在地上，几个人物面部有打斗伤痕。" features = extract_image_violation_features(ai_image_desc) print("抽取的图像违规特征:", features) # 预期输出可能包含: {"违禁品": ["刀具", "棍棒"], "不当行为": ["打斗"]}

5. 联合决策引擎：让审核结果更智能

三个任务独立运行的结果出来了，怎么给出最终的审核结论？这就需要一套决策规则。我们可以设计一个简单的规则引擎：

一票否决：如果文本敏感词识别或图像违规特征抽取中发现了明确的高风险实体（如“赌博工具”、“武器”），则直接拒绝。
综合评分：如果未触发一票否决，则对三项结果进行加权评分。
- 图文匹配度：“高相关”得高分，“低相关”得低分，“无关”得负分。
- 文本敏感词：按识别出的实体数量和类型扣分。
- 图像违规特征：按识别出的实体数量和类型扣分。
分级处理：根据总分设置阈值。
- 高分：直接通过。
- 中分：进入人工复核队列。
- 低分：拒绝。

Python实现示例：

def multi_modal_moderation_decision(image_desc, user_text): """ 多模态内容审核联合决策 :param image_desc: 图片描述 :param user_text: 用户配文 :return: 审核结果和详情 """ # 1. 并行执行三项检查 match_label = check_image_text_match(image_desc, user_text) text_entities = check_text_sensitive(user_text) image_features = extract_image_violation_features(image_desc) # 2. 一票否决规则（示例规则，可根据实际情况调整） high_risk_text_entities = ["赌博工具", "违禁药品"] # 高风险文本词列表 high_risk_image_features = ["武器", "血腥"] # 高风险图像特征列表 for entity_list in text_entities.values(): for entity in entity_list: if entity in high_risk_text_entities: return { "final_decision": "REJECT", "reason": f"文本包含高风险内容: {entity}", "details": {"match": match_label, "text": text_entities, "image": image_features} } for feature_list in image_features.values(): for feature in feature_list: if feature in high_risk_image_features: return { "final_decision": "REJECT", "reason": f"图像包含高风险特征: {feature}", "details": {"match": match_label, "text": text_entities, "image": image_features} } # 3. 综合评分（简化版） score = 0 # 图文匹配度评分 if match_label == "高相关": score += 30 elif match_label == "低相关": score += 10 else: # 无关 score -= 10 # 文本敏感词扣分 score -= len(text_entities) * 5 # 图像违规特征扣分 score -= len(image_features) * 8 # 4. 分级决策 if score >= 20: decision = "PASS" elif score >= 0: decision = "MANUAL_REVIEW" # 人工复核 else: decision = "REJECT" return { "final_decision": decision, "score": score, "details": { "image_text_match": match_label, "sensitive_text_entities": text_entities, "violation_image_features": image_features } } # 综合测试 print("=== 测试案例1: 高风险文本 ===") result1 = multi_modal_moderation_decision( "一张风景优美的山水画", "出售最新赌博设备，隐蔽性强，联系138xxxx" ) print(f"审核结果: {result1['final_decision']}") print(f"原因: {result1.get('reason', 'N/A')}\n") print("=== 测试案例2: 图文低相关广告 ===") result2 = multi_modal_moderation_decision( "一只可爱的宠物猫", "全网最低价，正品手机，点击购买！" ) print(f"审核结果: {result2['final_decision']}") print(f"综合评分: {result2['score']}\n") print("=== 测试案例3: 正常内容 ===") result3 = multi_modal_moderation_decision( "丰盛的晚餐，有牛排和沙拉", "今天自己下厨，味道还不错！" ) print(f"审核结果: {result3['final_decision']}") print(f"综合评分: {result3['score']}")