多模态提示学习在视频理解任务中的应用,多模态提示学习:让视频理解从“看得见”真正走向“看得懂”
目录
一、为什么普通微调在视频上“不好使”了?
二、提示学习:用一个“小钩子”撬动大模型
三、多模态提示学习的核心思想
1. 空间提示(Spatial Prompts)
2. 时间提示(Temporal Prompts)
3. 跨模态提示(Cross-modal Prompts)
四、最新技术进展(2024–2025年)
1. ST-Adapter(空间-时间适配器)
2. Textual-Prompt Generator (TPG)
3. Dual-Prompt Tuning (DPT)
五、手把手实现:用ViT + 多模态提示训练一个视频动作识别模型
环境准备
数据加载与训练(以UCF101为例)
六、进阶技巧:如何让模型“读懂”你的文本提示?
你有没有想过这样一个问题:为什么现在的AI看图说话已经做得不错,但一遇到视频就经常“智商掉线”?
明明是一段两个人击掌庆功的视频,AI可能只认出了“两只手”和“一个球”;明明是汽车相撞的瞬间,AI却只报告“四轮物体靠近”——它看不到因果,读不懂时间线,更别说理解视频里到底发生了什么“事”。
但最近一年多,“多模态提示学习”的爆发式进展,正在改变这一切。它像给AI安装了一双“导演的眼睛”,不仅能认出画面里的物体,还能理解“谁对谁做了什么,为什么这么做,接下来会怎样”。
而且,你只需要微调不到0.5%的参数,就能让一个预训练大模型在陌生视频任务上达到接近全参数微调的效果。
我今天就把这项技术的核心原理、最新进展和可运行的代码,掰开揉碎讲给你听。
