当前位置：首页 > news >正文

SiameseAOE模型多模态扩展探索：结合图像信息的属性抽取

news 2026/7/28 16:10:19

SiameseAOE模型多模态扩展探索：结合图像信息的属性抽取

最近在做一个项目，需要从一堆产品说明书里自动提取技术参数。这些说明书五花八门，有的是纯文本PDF，有的则是图文混排，甚至有些关键参数就印在产品图片的标签上。纯文本的还好办，用现有的文本属性抽取模型，比如我们之前用的SiameseAOE，效果已经不错了。但一遇到带图的，模型就“瞎”了，因为它根本不认识图片里写了啥。

这让我开始琢磨，能不能让这个擅长从文本里“抠”信息的模型，也学会“看”图呢？这就是多模态属性抽取要解决的问题。简单说，就是让模型既能理解文字，又能看懂图片，然后把两者信息融合起来，更完整、更准确地抽取出我们需要的属性。比如，从一张洗衣机的产品图里，认出它的能效等级标签；或者从一份混合了电路图和文字说明的文档里，提取出元器件的规格参数。

今天这篇文章，就想和大家分享一下我们在这个方向上的初步探索。我们尝试给SiameseAOE模型“装上眼睛”，看看它结合图像信息后，在属性抽取这个任务上能有什么新的表现。我会展示一些我们做的实验和得到的结果，聊聊这条路子有哪些让人兴奋的潜力，当然，也少不了那些让人头疼的挑战和我们想到的一些解决办法。

1. 为什么需要多模态属性抽取？

先说说我们为什么非得折腾这个。属性抽取，就是从非结构化的文本里，自动识别并结构化出我们关心的信息，比如从“这款手机采用骁龙8 Gen 2处理器，配备5000mAh电池”这句话里，抽出“处理器：骁龙8 Gen 2”和“电池容量：5000mAh”。SiameseAOE这类模型在这方面已经挺在行了。

但现实世界的信息远不止纯文本。尤其是在电商、制造业、医疗这些领域，大量关键信息是以图文结合的形式存在的。

电商产品页：商品主图可能直接展示了尺寸标签、材质成分标；详情图里可能包含了复杂的使用步骤图表，这些图表里的文字是纯文本描述无法替代的。
工业设备说明书：一个阀门的结构图，旁边标注了各个部件的名称和型号，文字部分可能只做了概括性描述。要准确抽取“部件A的型号”，必须结合看图。
医疗报告：影像报告（如X光片、CT图）上的标注、测量值，与下方的诊断文本描述共同构成了完整信息。只分析文本会丢失影像上的关键定量数据。
学术文献：论文中的图表、公式承载了核心数据和结论，仅抽取正文文本无法获得完整的研究发现。

如果模型只能处理文本，那就像只听了半场报告，信息是残缺的。多模态属性抽取的目标，就是让模型成为一个“全能信息处理员”，文本和图像两手抓，两手都要硬，从而得到更全面、更精确的结构化数据。这对于构建高质量的知识图谱、提升搜索引擎的体验、实现智能文档审核等应用，价值巨大。

2. 我们的技术路线：如何给SiameseAOE“赋能”视觉？

让一个原本只处理文本的模型去理解图像，并不是简单地把图片像素扔进去就行。我们设计了一套融合方案，其核心思想是：分别处理文本和图像，在高层语义层面进行对齐与融合，最后引导模型进行联合决策。

2.1 整体架构概览

你可以把我们改造后的系统想象成一个协作小组：

文本专家（原SiameseAOE）：继续干它的老本行，深度分析输入文本，理解句子结构、语义，并初步生成基于文本的属性抽取候选结果。
图像专家（视觉编码器）：我们引入了一个预训练好的视觉模型（比如CLIP的视觉编码器，或者ResNet、ViT等），它的任务是从图片中提取丰富的视觉特征。这些特征可能包含物体、场景、文字（如果图片中有文字的话）、颜色、布局等信息。
协调员（多模态融合模块）：这是最关键的部分。它负责接收文本专家和图像专家提交的“报告”，然后判断两者是否在说同一件事，如何互相补充或修正。例如，文本说“电池容量大”，图片里恰好有一个电池特写，上面标着“6000mAh”，那么协调员就需要把这个具体的数值信息，补充到文本生成的“电池容量”这个属性上。

2.2 关键步骤拆解

具体来说，流程分为以下几个关键步骤：

步骤一：视觉信息提取与表示我们不是让模型直接去“读”图片上的文字（那是OCR的活），而是先让视觉编码器把整张图片编码成一个富含语义的向量。这个向量就像图片的“指纹”或“摘要”，包含了图片的全局和局部信息。对于可能包含文字的图片区域（如标签、说明书片段），我们会特别关注，并可能结合OCR工具初步识别出的文字，将这些区域的特征增强表示。

步骤二：文本-视觉特征对齐这是多模态学习的老大难问题。文本说的“红色圆形按钮”，和图片中那个具体的红色圆形按钮，如何在数学表示上关联起来？我们尝试了几种方法：

注意力机制：让文本特征去“询问”图像特征：“关于‘按钮’这个部分，你有什么信息可以提供？”图像特征中对应的区域特征权重就会增高。这是一种动态的、根据上下文进行的对齐。
共享语义空间：我们利用CLIP等在大规模图文对上预训练过的模型，因为它们已经学会将匹配的文本和图像映射到相似的向量空间。我们可以直接使用或微调这类模型，作为我们特征对齐的基础。
目标检测辅助：对于某些特定领域（如商品），我们可以先用目标检测模型框出图片中的关键物体（如手机、电池图标），然后将检测到的物体类别与文本中的实体名词进行匹配对齐。

步骤三：多模态信息融合与决策对齐之后，就需要融合了。简单的方式可以是拼接（concatenation）文本和图像特征向量，然后输入到一个新的分类层或序列标注层。更精细的方式会使用门控机制（Gating）、交叉注意力（Cross-Attention）等，让模型自己学习在什么时候、多大程度上信任文本信息或视觉信息。最终，这个融合后的表征被用来做属性抽取的最终决策：确定属性类别，并定位其值在文本（或结合OCR文本）中的位置。

3. 效果展示：初步实验看到了什么？

我们构建了一个小规模的实验数据集，包含混合了产品图片和说明文的文档，任务是从中抽取产品属性，如品牌、型号、尺寸、重量、关键规格等。

3.1 纯文本 vs. 文本+图像对比

我们对比了原始SiameseAOE（仅用文本）和我们扩展的多模态版本在测试集上的表现。结果挺有意思：

测试场景	原始模型 (F1分数)	多模态扩展模型 (F1分数)	说明
纯文本说明书	0.89	0.88	对于没有对应图片的纯文本，多模态模型表现略有波动，基本持平。这符合预期，因为额外模块可能引入轻微噪声。
图文匹配良好	0.72	0.85	当图片清晰包含文本中提到的参数标签时（如电池图片上有容量数字），多模态模型提升显著。模型通过图像确认并细化了文本信息。
文本模糊，图像关键	0.31	0.68	文本仅说“详见图示”，关键参数只在图片中。纯文本模型几乎失效，而多模态模型通过识别图像文字，实现了有效抽取。
图文存在歧义	0.80	0.78	文本描述一种型号，图片展示的是另一种相似型号。此时，模型有时会被图像“误导”，性能轻微下降。这揭示了融合策略需要更智能的冲突消解。

从这几个例子可以看出，当图像信息与文本信息互补或提供关键补充时，多模态模型的优势非常明显。它能突破纯文本模型的“盲区”，从更丰富的信息源中获取答案。

3.2 实际案例展示

来看几个具体的例子，感受会更直观。

案例一：补充文本缺失的精确值

输入文本：“该型号笔记本电脑续航时间持久，适合移动办公。”
输入图片：一张笔记本产品图，机身底部贴有标签，印有“Battery: 78Wh”。
原始模型输出：可能抽取出属性：续航，值：持久。这是一个比较模糊的描述。
多模态模型输出：在识别到图片中的“78Wh”文字，并与文本“续航”、“电池”等概念对齐后，模型更有可能输出属性：电池容量，值：78Wh。信息从定性变成了定量，精确度大大提升。

案例二：解决文本指代歧义

输入文本：“设备支持两种连接方式（如图中A口和B口所示）。”
输入图片：一张设备接口示意图，分别标注了“USB-C”和“HDMI”。
原始模型输出：只能抽取出属性：连接方式，值：A口, B口。用户仍然不知道A口和B口具体是什么。
多模态模型输出：通过将文本中的“A口”、“B口”与图像中标注的“USB-C”、“HDMI”区域进行对齐，模型可以输出属性：接口A类型，值：USB-C和属性：接口B类型，值：HDMI。消除了指代不明。

当然，实验中也暴露了不少问题。比如，当图片质量差、文字模糊时，视觉信息提取会出错；当图文内容完全不相关（偶尔出现在爬取的资料中）时，强行融合反而会损害性能；模型对于该在多大程度上“相信”图像，还在学习过程中，有时会过度依赖某一模态。

4. 面临的挑战与我们的思考

这条路看起来前景光明，但坑也不少。我们在探索中遇到了几个核心挑战：

挑战一：高质量的图文对齐数据稀缺现有的公开属性抽取数据集大多是纯文本的。要训练一个好的多模态属性抽取模型，我们需要大量“文本-图像-属性标注”三元组的数据。例如，一段描述手机的文本，一张对应的手机图片，以及标注出文本和图片中分别提到了哪些属性（如颜色、屏幕尺寸），并且这些属性值要能对应上。构建这样的数据集成本非常高。

我们的应对思路：

弱监督与远程监督：利用现有的大规模图文对数据（如电商商品页），通过启发式规则或现有工具（OCR、目标检测）自动生成初步的属性标注，尽管有噪声，但可以作为预训练或初始训练数据。
数据合成：对于某些特定领域，可以尝试用程序生成一些简单的图文混合文档，用于模型初期的能力培养。

挑战二：复杂场景下的模态融合与冲突消解图文信息并不总是和谐互补的。它们可能冲突（文本说红色，图片是蓝色）、可能冗余、也可能只有一方有信息。模型需要具备“判断力”，知道何时以文本为主，何时以图像为主，何时需要结合。

我们的应对思路：

更精细的融合架构：探索基于门控机制、多模态注意力权重的动态融合网络，让模型根据当前上下文自适应地调整对每个模态的信任权重。
引入推理模块：在融合层之上，设计简单的推理逻辑，例如，如果检测到图片中有清晰的、可信的OCR文本（如印刷体数字），且与文本描述的数字类属性相关，则优先采用图像信息。

挑战三：计算复杂度与效率引入视觉编码器，特别是大型的ViT等模型，会显著增加计算开销。这对于需要实时处理海量文档的应用场景是个问题。

我们的应对思路：