当前位置: 首页 > news >正文

【深伪检测论文阅读 第一期】Triple-modality interaction for deepfake detection on zero-shot identity​

类别:大模型or免训练

标题:Triple-modality interaction for deepfake detection on zero-shot identity​
(核心对象:深度伪造检测;技术手段:三重模态交互(视觉+音频+文本);应用场景:零样本身份)
这篇论文通过融合视觉+音频+文本三种模态(TMI-Former模型),利用三重模态交互弥补单模态/双模态的局限,结合残差连接、蒸馏令牌等设计,解决了“未训练身份(零样本)”和“数据有限(单样本)”下的深度伪造检测问题,显著提高了模型对“新身份、新模态组合”的泛化能力。
零样本学习的完整定义是:模型在训练阶段没有见过某一类别的任何样本,但在测试阶段却能正确识别该类别。
实现方式通常依赖语义信息辅助信息,例如训练时教模型认识“猫”和“狗”,并告诉它“斑马长得像马,有条纹”。测试时给它看斑马的图片,虽然没有训练过斑马,但模型能通过“像马+有条纹”的描述推断出这是斑马。

  1. 输入与输出(Input & Output)
    输入(Input):
    数据类型:视频(Video)。
    具体模态:从视频中拆分的视觉(中间帧图像)、音频(MFCC频谱)、文本(语音转文字,置信度≥0.9)
    特殊设定:训练集与测试集的人物身份(Identity)完全不重叠(Zero‑shot Identity)。

输出(Output):
二分类结果:Real(真)​ 或 Fake(假)。

  1. 核心方法(Method)
    模型名称:TMI‑Former(Triple‑Modality Interaction Transformer)
    技术路线:采用两阶段、四步骤架构。
    视觉特征提取:利用 Vision Transformer 提取视觉特征,生成“类令牌”(Class Token)和“蒸馏令牌”(Distillation Token)。
    表示与交互:将音频和文本特征与视觉令牌拼接,加入位置编码,通过 Transformer 编码器进行三重模态的注意力交互。
    残差连接:将输入与输出的视觉特征通过 ReLU 激活函数连接,防止视觉信息在跨模态交互中丢失。
    晚期融合:分别对类令牌和蒸馏令牌进行分类,取平均得到最终结果。

  2. 创新点(Innovation)
    场景创新:构建了零样本身份(Zero‑shot Identity)和单样本(One‑shot)的评估基线,专门解决数据稀缺新身份泛化的问题。
    结构创新:提出 TMI‑Former,首次在 Deepfake 检测中显式引入文本模态,实现了视觉、音频、文本的三重模态交互。
    细节创新:引入蒸馏令牌(Distillation Token)和残差连接,解决了多模态融合中视觉特征易被淹没或丢失的问题。
    场景创新:构建零样本身份评估基线(训练/测试集身份完全不重叠),专门测试模型对“未见过的新人物”的泛化能力。
    TMI‑Former​ 的核心思想是:用视觉特征作为“骨架”,让音频和文本特征来“修补”和“验证”它。
    它不是一次性把三种模态扔进网络,而是分成了视觉为主、音文为辅的两个交互阶段。

  3. 实验效果(Results)
    对比单模态 AI:
    准确率提升 18.75%–19.5%(单模态约为 49.5%–50.25%)。
    F1‑score 提升 0.2238–0.3561。

对比现有多模态 AI:
准确率提升 1.44%–19.75%(现有多模态约为 0.19%–18.06%)。
F1‑score 提升 0.0146–0.4169。
消融实验验证:去除残差连接后,模型性能显著下降(准确率最高下降约 7.56%),证明该组件对保留视觉信息至关重要。
一句话总结:这篇论文提出了一种叫TMI‑Former​的模型,通过融合视频、音频、文本三种模态,并配合特殊的残差连接设计,成功解决了在没见过的新人物(零样本)和数据很少的情况下,依然能有效检测 Deepfake 的问题

http://www.jsqmd.com/news/587699/

相关文章:

  • SQL视图如何实现动态过滤_通过SQL存储过程调用视图
  • ComfyUI-Manager架构设计与企业级节点管理优化方案
  • bestofrs.org! DDD? Rust? WebAssembly?—— 纯血Rust最佳实践齐打交!
  • 利用快马平台快速搭建yolov5目标检测web应用原型
  • LINQ数据访问技术
  • 告别编译噩梦:用VSCode + CMake Tools 在Windows上优雅地构建和调试ncnn项目
  • 新手福音:在快马平台用OpenClaw轻松学习机械爪控制
  • 让ai替你思考复杂逻辑:基于快马智能生成kafka多消费者组流处理应用
  • 虚拟滚动如何实现高度自适应?解决 Item 动态撑开导致的滚动条跳动
  • 宇宙知识管线 R1—R9 全周期消融
  • Project AirSim避障实战:深度图分割与动态航向规划详解
  • PaddleOCR实战:教你处理扫描版PDF里那些‘拦腰截断’的表格
  • 成都兴诚艺门窗有限公司
  • ffmpeg精确极速剪辑方案
  • 如何应对SQL注入威胁_使用存储过程封装查询降低风险
  • 生产环境Certbot泛域名证书全自动续期完整配置指南(Cloudflare DNS验证)
  • 效率提升秘籍:借助快马平台让winner1300代码生成速度提升300%
  • 深入探讨Laravel Eloquent的Distinct查询
  • HJ喜欢切数组的红
  • 效率翻倍:用快马打造专属阿里悟空AI绘画批量生成工具
  • 实战演练:基于快马平台与方锐理念构建短视频智能配乐应用
  • Qualcomm SA8775P深度解析 ——一颗芯片搞定座舱+智能驾驶?工程师告诉你真相
  • CSS如何实现响应式导航在小屏下的隐藏_利用-checked实现开关交互
  • 新手友好:用快马AI生成第一个Skill-Vetter式自测应用
  • REX-UniNLU实战:无需代码,用Web界面快速分析文本情感与实体关系
  • YimMenu:GTA V 增强与防护工具全攻略
  • Godot 4 2D 物理引擎位置初始化踩坑:add_child() 和 position 到底谁先? (错误位置触发物理事件)
  • seo关键词挖掘工具哪个好_seo数据分析工具哪个最强
  • STM32CubeIDE实战:手把手教你为stm32f767手动添加DSP库(附FPU配置技巧)
  • c语言完美演绎6-20