当前位置：首页 > news >正文

Cloud-Device Collaborative Learning for Multimodal Large Language Models

news 2026/7/22 14:56:18

Cloud-Device Collaborative Learning for Multimodal Large Language Models

大规模 MLLMs （多模态大型语言模型）在客户端设备上的部署受到其海量模型参数的限制 —— 当为设备部署而压缩模型时，模型的泛化能力会显著下降。

为应对这一挑战，我们提出了云 - 设备协同持续适配框架，旨在通过利用基于云端的更大规模 MLLMs 的强大能力，提升压缩后部署在设备端的 MLLMs 的性能。

框架包含三个核心组件：用于高效数据传输的设备到云端上行链路、基于云端的知识适配模块，以及优化的云端到设备下行链路（用于模型部署）。

在上行阶段，我们采用不确定性引导的标记采样（UTS）策略，有效过滤分布外标记，从而降低传输成本并提升训练效率。

在云端，我们提出基于适配器的知识蒸馏（AKD）方法，将精炼知识从大规模 MLLMs 迁移至压缩的轻量级 MLLMs。

此外，针对下行链路，我们提出动态权重更新压缩（DWC）策略，通过自适应选择和量化更新的权重参数，提升传输效率并缩小云端与设备端模型的表征差异。

由于参数规模庞大，MLLMs 通常部署在云服务器上，表现出强大的泛化能力。然而，其大规模参数使得直接在设备端部署 MLLMs 极具挑战性，这也限制了它们的实际应用。

鉴于客户端设备资源有限，MLLMs 需要压缩后才能部署到设备端。当测试数据分布与训练数据分布高度匹配时，压缩后的 MLLMs 确实表现出色。但这一假设在现实场景中面临重大挑战，因为现实环境是非静态的，分布偏移现象普遍存在 [4,5]。当面对动态分布偏移时，小型 MLLMs 容易出现严重的性能退化 [5-7]。这主要存在两个挑战：（1）边缘设备的计算能力有限，阻碍了及时进行模型更新的能力，导致在遇到分布偏移时性能下降。（2）压缩模型的容量相对较小，难以适应不断变化的环境，导致泛化能力不足。

为了使设备端模型在动态环境中具备更强的能力，我们提出了云 - 设备协同持续适配（CD-CCA）框架（如图 1 所示）。我们的核心思路是利用云端大型 MLLMs 来提升部署在设备端的压缩小型 MLLMs 的泛化能力。

在不影响设备端模型效率的前提下增强其泛化能力，我们提出了一种新的学习范式：云 - 设备协同持续适配。该范式包含三个关键组件：设备到云端的上行链路、云端知识更新和云端到设备的下行链路。

为了使部署在设备端的 MLLM 具备动态参数更新能力，我们设计了一条设备到云端的上行链路，用于传输设备端生成的不确定性标记。具体而言，我们提出了一种从粗到细的标记过滤方法，即不确定性引导标记采样（UTS）策略，以最小化上行传输成本。我们首先利用样本级不确定性从目标分布数据中识别并过滤出极端情况样本，随后采用标记级不确定性进行二次过滤，分离出分布外标记。这种方法有助于缓解网络传输带宽限制，并提高云服务器上的训练效率。

在云端，我们开发了一种专门为 MLLMs 设计的新型基于适配器的知识蒸馏（AKD）方法。AKD 的目的是将原始大型 MLLMs 的暗知识迁移到压缩的轻量级 MLLMs 中。

/MLLMs 通常由三个主要组件组成：视觉编码器、大型语言模型（LLM）[8]，以及融合高层视觉和语言上下文的跨模态转换器 [2,3,9]。因此，我们的方法首先聚焦于对跨模态转换器的可学习查询适配器进行知识蒸馏（KD），以增强小型 MLLMs 的视觉到文本对齐能力。同时，由于 LLM 在 MLLM 中占据了大部分参数，压缩模型的主要目标是减少 LLM 的参数。因此，我们进一步对插入到 LLM 中的可学习语言适配器进行 KD，以增强学生 MLLMs 的语言交互和推理能力。

此外，考虑到边缘设备的计算能力各异，我们对设备端 MLLMs 的动态更新权重参数采用自适应量化和压缩技术。这些压缩后的权重参数随后通过下行链路传输到设备端，缩小了设备端和云端 MLLMs 之间的表征差距。我们在两个跨域视觉推理基准上进行了广泛实验，一个是从 VQA-v2 [10] 到 A-OKVQA [11]，另一个是从 COCO Captions 2017 [12] 到 nocaps [13]。我们提出的框架相比以往方法取得了更优的性能。此外，对于上行链路，我们在保持性能的同时，将传输成本与传输整个数据集相比分别降低到了 4.71% 和 20.6%。对于下行链路，我们能够以几乎可忽略的传输成本将压缩的动态更新权重参数交付到设备端，在域偏移的 VQA 任务和图像描述任务中分别实现了 3.93% 和 2.20% 的性能提升。我们的贡献可总结如下：

我们引入了 CD-CCA 框架，该框架通过持续利用云端大型 MLLMs 来增强设备端压缩小型 MLLMs 的泛化能力。
对于设备到云端的上行链路，我们提出了 UTS 策略，用于在设备到云端的数据传输过程中过滤分布外标记。
在云端，我们引入了 AKD 方法，以促进原始大型 MLLMs 的暗知识向压缩轻量级 MLLMs 的迁移。
对于云端到设备的下行链路，我们提出了一种动态权重更新压缩方法，显著提高了云端到设备的更新权重传输效率，为云 - 设备协同学习范式的应用奠定了实际基础。
大量实验表明，CD-CCA 优于以往方法，有效增强了设备端压缩 MLLMs 的持续域适应能力。此外，我们通过实际场景实验验证了该方法的可行性。

CD-CCA 框架通过整合云端计算能力与边缘设备的灵活操作性，形成了一种新型范式。该框架的动态适应性可通过以下优化过程简洁概括：

其中，M′表示优化后部署回边缘设备的模型，D为多模态实例数据集，U代表用于提升上行效率的 UTS 策略，K为云端的 AKD 过程，C表示用于下行传输的动态权重更新压缩（DWC）策略。

框架首先通过 UTS 策略对多模态数据进行筛选，仅选择最关键的标记上传至云端进行优化 —— 这种选择性过滤既能保留需要云端处理的数据本质，又能节省带宽并降低上行延迟。随后，云端利用 AKD 技术将大型教师模型的丰富知识蒸馏并迁移至轻量级学生模型，该过程针对多模态数据的学习特性进行了精细调整，确保学生模型获得更强的泛化能力。框架的最后一环是 DWC 策略，其在下行传输前对更新的模型参数进行动态量化与压缩，显著缓解了设备端模型更新的延迟问题，确保更新后的智能能及时交付，维持设备应用所需的实时响应能力。

不确定性引导的 token 采样（UTS）

CD - CCA 框架中的 UTS 组件充当了一种智能过滤机制，能够识别并优先处理要传输的多模态实例。其依据在于，并非每个实例对模型学习的贡献都是相同的，有些实例可能对模型适配更为关键。

在 UTS 的第一阶段，部署在边缘设备上的参数为 Θ 的 MLLM 会处理多模态实例((v_i, t_i) \in D)，并按照以下方式评估其预测不确定性U：

公式 2 计算的是预测 token 概率的熵，以此作为给定实例不确定性的度量。不确定性高的实例会被标记为需要进一步分析的候选实例。

在接下来的阶段，我们提出了方差信息采样（VIS）技术，作为对预先选择的实例进行进一步筛选的细化步骤。VIS 对编码后的多模态输入张量应用蒙特卡洛 dropout 方法，通过多次前向传播得出方差度量，以此识别这些实例中哪些 token 在其表示上呈现出显著的变异性：

方差(\sigma^2)超过预定义阈值(\beta)的 token 会被保留，这样就能确保只有信息最丰富的 token 才会被考虑进行云端处理，如公式 4 所示：

通过实施这种两阶段的方法，UTS 极大地减少了上行传输所需的数据量，进而优化了带宽使用并最大限度地降低了延迟。特别是 VIS，通过确保模型的改进是由那些最有可能推动其学习进展的数据点驱动的，体现了 CD - CCA 框架中目标明确且高效的学习本质。

基于适配器的知识蒸馏（AKD）

AKD 策略借助云端资源丰富的计算能力，来提升部署在设备上的 MLLM 的性能。在这个过程中，一个高容量的教师 MLLM 和一个结构相同的学生 MLLM 会共存于云端，进行有针对性的知识传递。这种知识交换是通过适配器来实现的，适配器是一种辅助线性层，它只需向模型引入极少的参数，就能为模型更新提供重要途径。

在 AKD 阶段，我们着重对学生模型(M_{student})进行微调，使其能够掌握教师模型(M_{teacher})所展现出的高级多模态理解能力。

具体而言，适配器被用于微调查询表示和跨注意力输出，这两者对于处理和整合多模态信息至关重要。这些适配器就像是有针对性的修改模块，使学生模型的潜在空间与教师模型的精细特征空间保持一致，从而有效地将教师模型的大量知识压缩到学生模型更简洁的结构中。

这种细粒度的蒸馏过程是通过适配器来实现的，这些适配器被战略性地放置在适当位置，用于拦截和转换查询向量以及由注意力介导的多模态表示。通过这种方式，适配器使知识能够直接从教师模型丰富的特征空间流向学生模型的对应层，确保关键的多模态洞察得以保留。

这种基于适配器的微调的有效性是通过一个复合损失函数来衡量的，该损失函数包括

查询对齐损失（(L_{query})）

将学生模型和教师模型的查询表示之间的差异降至最低，以此确保学生模型能够生成像教师模型一样有效包含多模态数据复杂性的查询。通常，(Q^{(t)} \in \mathbb{R}^{B \times L \times C})和(Q^{(s)} \in \mathbb{R}^{B \times L \times C_s})分别表示教师和学生查询的特征映射，查询对齐模仿可以通过以下方式实现：

(\phi)是一个线性投影层，用于使(Q^{{(s)})适应与(Q}{(t)})相同的通道数。

表示对齐损失（(L_{repr})）

旨在使学生模型和教师模型之间由注意力驱动的多模态表示同步，增强学生模型处理和整合多模态线索的能力。

交叉熵损失（(L_{CE})）：

利用教师模型在具有挑战性的多模态实例上的输出（这些实例是在经过 UTS 处理后通过上行链路识别并传输的）作为伪标签。这些标签用于校准学生模型的参数更新，增强其处理多模态数据中固有复杂性的能力。

蒸馏过程会对这些损失组件的加权和进行优化，并仔细调整权重以在模仿教师模型的输出和保持学生模型的固有特性之间实现和谐平衡：

动态权重更新压缩（DWC）

DWC 是 CD-CCA 框架的核心支柱之一，旨在解决模型更新从云端到设备的传输效率问题。它通过引入基于量化的模型参数压缩机制，专门应对部署在设备端的 MLLM 在更新时面临的带宽限制和延迟挑战。

DWC 的运作基于这样一个前提：高效的模型更新不仅取决于传输的数据量，还与更新参数的重要性相关。这促使我们开发了一种量化方案，该方案有选择地针对 AKD 阶段优化的参数进行处理，在不损害模型性能完整性的前提下，优化更新负载以提升传输效率。

DWC 过程可通过以下量化操作形式化表示：

(\Theta_{\text{updated}})表示 AKD 后的参数，(\Theta_{\text{base}})为更新前的基线参数，Q是量化函数，用于将参数自适应映射为紧凑的低位表示。该函数经过精心校准，以确保保留最关键的更新，同时减小整体更新规模。
量化过程对影响较小的参数策略性地应用更高的压缩比，同时保持重要更新的保真度：

边缘设备接收(\Theta_{\text{compressed}})后，直接将这些更新集成到 MLLM 中。这种直接集成无需反量化，因为设备端 MLLM 可在量化参数空间内有效运行，体现了通过云端蒸馏学习到的精细化改进。

因此，DWC 为设备计算环境中的模型更新提供了一种实用且可扩展的方法，其中传输开销是关键问题。通过实现更小但更有效的更新，DWC 确保设备端 MLLM 能够持续演进并适应新数据，而无需承受大规模模型再训练或全模型更新通常带来的延迟。

该策略概括了边缘设备和云服务的共同努力，以无缝高效地持续增强 MLLM。优化围绕两个关键方面展开：边缘设备执行 UTS 以识别并向云端转发具有挑战性的多模态实例，而云端则通过 AKD 和 DWC 分别优化和压缩参数更新。这一过程的最终结果是将压缩后的更新应用于设备端 MLLM，确保其以最小的传输开销保持高效和最新状态。

用参数(\Theta_{\text{edge}})初始化边缘模型(M_{\text{edge}})
2: 在云端部署教师模型(M_{\text{teacher}})和学生模型(M_{\text{student}})
3: 定义 UTS、AKD 和 DWC 流程
4: 重复以下步骤
5: 边缘设备执行推理和 UTS，识别高不确定性实例
6: 将选定实例传输至云端
7: 云端执行 AKD，利用(M_{\text{teacher}})优化(M_{\text{student}})
8: 使用 DWC 压缩更新后的参数(\Theta_{\text{updated}})，得到(\Theta_{\text{compressed}})
9: 将(\Theta_{\text{compressed}})传输回设备
10: 用(\Theta_{\text{compressed}})更新(M_{\text{edge}})
11: 直到收敛或完成预定义的循环次数

数据集

为验证所提出的 CD-CCA 框架在语言域偏移分布场景下对多模态大语言模型（MLLM）持续泛化能力的提升，我们基于两组数据集开展实验：VQA-v2 [10] 与 A-OKVQA [11]，以及 COCO Caption 2017 [12] 与 Nocaps [13]。

评估指标

为对比 CD-CCA 与其他 SOTA 领域自适应方法在 MLLM 持续泛化能力上的表现，统一采用 VQA 准确率、BLeU-4 和 CIDEr 分数作为评估指标。此外，在真实环境验证中，我们进一步计算 CD-CCA 框架上下行传输的参数数量、数据大小，以及云 - 设备传输延迟（TD）。

实现细节

实验中，云端采用基于 LLaMA2-13B [8] 的 LLaMA-Adapter [32] 作为大型教师 MLLM，设备端采用基于 LLaMA2-7B [8] 的 LLaMA-Adapter [32] 作为小型学生 MLLM（与设备模型一致）。为进一步减少设备端模型参数，我们将学生 MLLM 的 Q-former [33] 隐藏层数从 12 层减至 6 层。上述 MLLM 首先在大规模图像 - 文本对数据集（COYO [34]、LAION [35]、CC3M [36]、CC12M [37]、SBU [38]）上进行预训练，随后使用来自 GPT4-LLM [39] 的 5.2 万条单轮指令数据和 COCO Caption [12] 的 56.7 万条字幕数据进行微调。对于云端和设备端模型，微调过程中仅更新 LLaMA 归一化层、线性层偏置、LoRA [40] 参数及 Q-Former [33] 中的查询标记，其余参数保持冻结。在具体实验中，我们进一步在上述数据集上对 MLLM 进行针对性微调。

4.2 对比分析

本小节将 CD-CCA 与现有 SOTA 领域自适应方法 [4,5,41,42] 进行对比实验：

Tent [4] 通过最小化熵来更新批量归一化层中的可训练参数，以适应测试数据。
Cotta [5] 采用权重平均和增强平均预测来减少伪标签中的误差累积，并利用随机恢复防止灾难性遗忘。
PKD [41] 基于皮尔逊相关系数进行特征模仿，放宽对特征幅度的约束，专注于教师模型的关系信息。
ChannelWiseDivergence [42] 对各通道的激活图进行归一化，生成两个网络的软概率图，并最小化通道概率图之间的 KL 散度。

所有实验均基于 LLaMA-Adapter [32] 作为基础 MLLM 展开：

语言域偏移场景下的持续泛化能力验证：使用 VQAv2 到 A-OKVQA 数据集进行评估。具体流程为：首先用 VQA-v2 [10] 微调预训练的 MLLM（LLaMA-Adapter 7B/13B），然后在 A-OKVQA [11] 上评估不同条件（多选题（MC）与直接回答（DA））下的 VQA 准确率，结果记录于表 1 和图 3。
- 在 VQA 任务中，CD-CCA 框架在单轮场景下的 MC 和 DA 问题中均超越对比模型的最高准确率。值得注意的是，部分传统方法（如 CoTTA 和 Tent）因未专门针对 MLLM 设计，随模型参数规模增大出现性能下降。相比之下，CD-CCA 在 MC 和 DA 问题上的平均准确率分别比最优对比模型高 3.64% 和 3.19%，显著证明其在数据分布动态变化时的高鲁棒性。图 4 以可视化形式展示了框架在多模态理解任务中的实验结果。
跨数据集字幕生成能力验证：使用 COCO 到 Nocaps 数据集进行评估。首先用 COCO Captions 2017 [12] 微调预训练的 LLaMA-Adapter（7B/13B），然后在 Nocaps [13] 上评估视觉字幕生成结果（BLeU@4、CIDEr），结果记录于表 2。根据训练 - 测试图像类别的重叠程度，参考 [13] 将测试图像分为域内、近域和域外三类。
- 在图像字幕任务中，CD-CCA 在所有场景下均显著优于对比方法：域内和近域任务中，BLeU 分数分别提升 1.22% 和 0.59%，CIDEr 分数分别提升 0.6% 和 0.46%；域外任务中优势更显著，BLeU 和 CIDEr 分别提升 1.84% 和 3.98%。这表明 CD-CCA 具备强大的泛化能力，能有效帮助模型从图像中提取内在知识并迁移到新任务。

.3 消融实验

本部分通过拆解 CD-CCA 框架的关键组件，系统分析各模块对整体性能的贡献：

UTS 策略有效性：
- UTS 在保持性能的同时显著降低传输成本。如表 5 所示，与传输完整数据集相比，仅需 0.21% 的传输数据量和 0.20% 的传输延迟即可达到相同性能。
- 不同掩码率下的 VQA 实验表明，掩码率为 50% 时模型性能最佳，MC 和 DA 准确率分别提升 3.06% 和 0.65%。
- UTS 两阶段联合使用时，MC 和 DA 问题准确率分别提升 5.24% 和 3.50%，验证了各阶段的协同增益。
AKD 云 - 设备联合优化有效性：
- 相比纯伪标签方法，AKD 在 VQA 任务中使 MC 和 DA 准确率分别提升 2.53% 和 3.34%，结合其他模块后性能进一步稳定提升。AKD 通过适配器实现教师 - 学生模型的定向知识迁移，显著增强学生模型的泛化能力。
DWC 压缩有效性：
- DWC 通过量化压缩模型参数，确保设备端仅更新关键参数。如表 5 所示，与未压缩场景相比，传输至设备的模型权重参数数量、数据量和传输延迟分别减少 99.98%、99.99% 和 99.98%，有效保障设备参数的实时更新。

4.4 真实环境验证

和 3.34%，结合其他模块后性能进一步稳定提升。AKD 通过适配器实现教师 - 学生模型的定向知识迁移，显著增强学生模型的泛化能力。
3.DWC 压缩有效性：

DWC 通过量化压缩模型参数，确保设备端仅更新关键参数。如表 5 所示，与未压缩场景相比，传输至设备的模型权重参数数量、数据量和传输延迟分别减少 99.98%、99.99% 和 99.98%，有效保障设备参数的实时更新。

4.4 真实环境验证

实验采用符合 802.11ac（Wi-Fi 5）标准的千兆以太网（理论峰值 1000Mbps）作为实际网络环境，使用 Realsense D435i 作为设备端图像采集设备（分辨率 1920×1080）。真实机实验验证了 CD-CCA 的有效性，表 5 记录了双向传输参数大小（P）、传输数据量（D）和传输延迟（TL）。

查看全文

http://www.jsqmd.com/news/861777/