当前位置：首页 > news >正文

【深伪检测论文阅读第一期】Triple-modality interaction for deepfake detection on zero-shot identity

news 2026/7/27 11:43:19

类别：大模型or免训练

标题：Triple-modality interaction for deepfake detection on zero-shot identity
（核心对象：深度伪造检测；技术手段：三重模态交互（视觉+音频+文本）；应用场景：零样本身份）
这篇论文通过融合视觉+音频+文本三种模态（TMI-Former模型），利用三重模态交互弥补单模态/双模态的局限，结合残差连接、蒸馏令牌等设计，解决了“未训练身份（零样本）”和“数据有限（单样本）”下的深度伪造检测问题，显著提高了模型对“新身份、新模态组合”的泛化能力。
零样本学习的完整定义是：模型在训练阶段没有见过某一类别的任何样本，但在测试阶段却能正确识别该类别。
实现方式通常依赖语义信息或辅助信息，例如训练时教模型认识“猫”和“狗”，并告诉它“斑马长得像马，有条纹”。测试时给它看斑马的图片，虽然没有训练过斑马，但模型能通过“像马+有条纹”的描述推断出这是斑马。

输入与输出（Input & Output）
输入（Input）：
数据类型：视频（Video）。
具体模态：从视频中拆分的视觉（中间帧图像）、音频（MFCC频谱）、文本（语音转文字，置信度≥0.9）。
特殊设定：训练集与测试集的人物身份（Identity）完全不重叠（Zero‑shot Identity）。

输出（Output）：
二分类结果：Real（真）或 Fake（假）。

核心方法（Method）
模型名称：TMI‑Former（Triple‑Modality Interaction Transformer）。
技术路线：采用两阶段、四步骤架构。
视觉特征提取：利用 Vision Transformer 提取视觉特征，生成“类令牌”（Class Token）和“蒸馏令牌”（Distillation Token）。
表示与交互：将音频和文本特征与视觉令牌拼接，加入位置编码，通过 Transformer 编码器进行三重模态的注意力交互。
残差连接：将输入与输出的视觉特征通过 ReLU 激活函数连接，防止视觉信息在跨模态交互中丢失。
晚期融合：分别对类令牌和蒸馏令牌进行分类，取平均得到最终结果。
创新点（Innovation）
场景创新：构建了零样本身份（Zero‑shot Identity）和单样本（One‑shot）的评估基线，专门解决数据稀缺和新身份泛化的问题。
结构创新：提出 TMI‑Former，首次在 Deepfake 检测中显式引入文本模态，实现了视觉、音频、文本的三重模态交互。
细节创新：引入蒸馏令牌（Distillation Token）和残差连接，解决了多模态融合中视觉特征易被淹没或丢失的问题。
场景创新：构建零样本身份评估基线（训练/测试集身份完全不重叠），专门测试模型对“未见过的新人物”的泛化能力。
TMI‑Former 的核心思想是：用视觉特征作为“骨架”，让音频和文本特征来“修补”和“验证”它。
它不是一次性把三种模态扔进网络，而是分成了视觉为主、音文为辅的两个交互阶段。
实验效果（Results）
对比单模态 AI：
准确率提升 18.75%–19.5%（单模态约为 49.5%–50.25%）。
F1‑score 提升 0.2238–0.3561。

对比现有多模态 AI：
准确率提升 1.44%–19.75%（现有多模态约为 0.19%–18.06%）。
F1‑score 提升 0.0146–0.4169。
消融实验验证：去除残差连接后，模型性能显著下降（准确率最高下降约 7.56%），证明该组件对保留视觉信息至关重要。
一句话总结：这篇论文提出了一种叫TMI‑Former的模型，通过融合视频、音频、文本三种模态，并配合特殊的残差连接设计，成功解决了在没见过的新人物（零样本）和数据很少的情况下，依然能有效检测 Deepfake 的问题。

查看全文

http://www.jsqmd.com/news/587699/