当前位置：首页 > news >正文

【干货收藏】从亿级到万级：STRUCTURE让多模态对齐不再需要海量数据

news 2026/4/8 8:28:39

本文提出STRUCTURE方法，解决了多模态对齐中数据稀缺的问题。通过保留预训练单模态模型的内在几何结构和基于相似性的层选择策略，该方法仅需数万对配对样本（而非传统方法的数亿对）即可实现有效对齐。特别适用于医疗、生物等数据获取成本高昂的领域，让强大的单模态模型能够协作发挥更大价值。

这篇论文试图解决的核心问题是：能否在仅使用极少量（例如数万对）配对多模态样本的情况下，将预训练的单模态基础模型有效地对齐到一个共享的表示空间中？这旨在克服现有方法需要数百万甚至数亿配对数据的限制，以适用于医疗、生物等数据获取成本高昂的领域。

1.背景知识

**单模态模型：**这些模型专门处理一种类型的数据（即“模态”）。例如，像GPT这样的大语言模型是文本专家，而像ViT这样的视觉模型是图像专家。近年来，这些模型通过在海量数据上训练，取得了惊人的成就，甚至在某些任务上超越了人类。

**多模态模型：**然而，真实世界是丰富多彩的。我们理解事物时，常常需要结合多种信息。多模态模型的目标就是让AI能够同时理解和关联文本、图像、声音等多种信息。多模态模型应用无处不在：搜索引擎可以让你用文字搜图片；医疗诊断需要结合医学影像（视觉）和病历报告（文本）；自动驾驶汽车需要同时“看懂”路况（视觉）和“听懂”导航指令（语音）。

实现多模态理解的关键一步，是将不同模态的信息映射到同一个“意义空间”，这样，一张猫的图片和“猫”这个文字概念，在AI的“大脑”里就会靠得很近，从而实现跨模态的检索、比较和推理。

**目前，构建强大多模态模型的主流方法（如著名的CLIP模型）存在一个巨大的瓶颈：它们极度依赖海量的“配对数据”。所谓配对数据，就是成对出现的、内容相关的不同模态数据。**CLIP这样的模型需要数亿对这样的数据来学习如何将图像和文本对齐到同一个空间。

**在许多专业和重要的领域，如医疗、生物科学、特定工业场景，获取这种高质量、大规模、精确配对的跨模态数据极其困难、昂贵且耗时。**医生不可能为每张X光片都配上详尽且标准的文字描述，生物学家也无法为每个蛋白质结构找到海量的对应文献。这就导致在这些数据稀缺的领域，我们空有强大的单模态专家模型，却无法让它们“携手合作”，发挥出1+1>2的价值。

因此，一个核心的挑战摆在我们面前：我们能否利用现成的、已经训练好的单模态专家模型，只使用非常少量的配对数据（比如几万对，而不是几亿对），就将它们有效地“对齐”到一个共享的理解空间中？这篇论文正是要回答这个极具现实意义的问题。

2. 方法

图1：有限数据下跨模态对齐方法的概述。目标是将来自两种模态（如图像和文本）的表征对齐到一个共享的嵌入空间中。核心挑战在于，当仅有少量配对数据可用时，如何引导模型找到良好对齐的解决方案，而非错位的方案。

2.1 问题形式化

我们考虑在独立预训练的单模态编码器之间对齐表示的任务。如图1所示，我们保持编码器冻结，并学习轻量级的对齐函数，将每个模态的潜在空间映射到一个共享空间，其中语义相关的样本彼此接近。

设和为两个预训练单模态编码器的潜在空间，对应于编码器最后层或中间层的输出和是各自的维度，不需要相等。给定个配对多模态样本，其中，。目标是学习两个对齐函数和，将模态特定空间映射到共享嵌入空间（维度为k）

当配对样本比任何非配对样本更接近时，共享空间中的对齐就实现了：

其中表示相似性函数，如余弦相似度。与先前工作（使用数千万配对样本）不同，我们专注于N相对较小（即数万样本）的挑战性条件。这对应于现实世界中的数据稀缺场景，如医疗、生物科学等领域。

表1：模态对齐框架下现有方法及我们方法的概述。LC代表CLIP[7]中的标准对称对比损失。RS表示STRUCTURE，即我们工作中提出的正则化项。

我们将不同对齐方法统一到一个包含三个主要组件的联合框架中：

1.模态特定潜在空间和

2.对齐函数和

3.目标函数，指导共享空间的构建

表1总结了现有方法如何实例化这些组件。论文工作提出一个通用框架，可以通过STRUCTURE正则化正则化任何目标函数，并使用具有最高表征相似性的层作为模态特定潜在层。

论文提出两个关键组件：STRUCTURE正则化（保持每个模态潜在空间的内在几何结构）和相似性引导的层选择策略（选择具有最高表征相似性的层对）。这两个组件可以无缝集成到现有对齐方法中。

2.2 STRUCTURE正则化：保留邻域关系

在配对样本有限的情况下，保持预训练单模态编码器的潜在结构至关重要。这些编码器在数百万甚至数十亿样本上训练，编码了样本之间有意义的语义关系。STRUCTURE正则化旨在在共享对齐空间中保持预训练单模态空间的邻域关系。

给定模态特定空间及其对应的共享空间，正则化项确保和表达的关系之间的分层（即多尺度）一致性。

步骤1：归一化和中心化.每个样本和（）

首先进行归一化：

然后中心化以移除全局平移偏差：

归一化和中心化后的矩阵表示为：

步骤2：计算相似性矩阵.使用温度计算（缩放后的）相似性矩阵：

步骤3：转换为概率分布.应用行方向的softmax函数将相似性解释为概率分布：

步骤4：构建多尺度关系.为了捕获在相似性图上恰好跳可达的关系，我们为每个分层级别定义：

其中是总级别数。

对于一个方阵P，其幂次是通过重复的矩阵乘法定义的，即P l = P P ⋅ ⋅ ⋅ P P^l = P P · · · PPl=PP⋅⋅⋅P（共个因子），不应与逐元素指数运算混淆，通常( P l ) _ i j ≠ P l _ i j (P^l)\_{ij} ≠ P^l\_{ij}(Pl)_ij=Pl_ij。

重复的矩阵乘法本质上就是计算多跳可达关系。

2.3 Jensen-Shannon散度测量

我们的正则化的关键思想是强制和捕获的结构关系之间的一致性，即嵌入空间中的相对位置和邻域结构。我们采用Jensen-Shannon散度（JS散度）因其对称性来测量相似性分布之间的差异。

在每个级别，我们定义级别特定的散度为：

其中：

是Kullback-Leibler散度。实践中，添加一个小常数以确保数值稳定性。

STRUCTURE正则化的最终公式是跨级别散度的加权平均，其中较低级别被更重地加权以抵消较高级别更集中的分布：

我们表示为在个级别上操作的正则化，如果未另行指定，则设置为1。

与用于表示对齐的任何目标函数（如工作中的）一起，组合损失定义为：

其中是正则化权重。

2.4 基于相似性的层选择（Similarity-based layer selection）

在参数冻结的对齐中，对齐质量与单模态表示空间之间的表征相似性密切相关。给定两个单模态基础模型，这些空间通常对应于模型的不同层。因此，选择适当的层进行对齐至关重要。

先前工作仅依赖于对齐模型的最后一层，忽略了基于层的相似性。论文提出以下层选择程序：

**计算表征相似性：**在少量配对样本（约5,000对）上，计算所有层对之间的表征相似性（以互k近邻（mutual kNN (MkNN)）衡量），通常从训练集中随机选择

**选择最相似的层：**选择具有最高相似性的层进行对齐

在本文的工作中，论文根据Rice准则计算表征相似性。论文证明这种选择程序在不同子集大小和重复中产生一致的结果。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

查看全文

http://www.jsqmd.com/news/308604/