从一千帧到一滴精华——XComp如何让AI看懂长视频
每一帧压缩成一个token:当技术极简主义遇见视频理解的终极挑战
🎞️ 一个电影爱好者的困境
想象你是一个电影评论家,要看一部3小时的电影写影评。但有个限制:你只能看100帧画面——相当于每1分钟看不到1帧。
你会怎么做?
- 均匀采样?每1分钟看1帧,但这会错过关键情节
- 看开头和结尾?通常会错过中间的转折
- 凭直觉跳看?可能错过重要细节
这就是当前AI视频理解模型面临的困境。
费曼会说:“你不可能在信息量如此稀疏的情况下真正理解一个东西。你需要的是密度——在有限的容量里,装入最有价值的信息。”
XComp(eXtreme Compression)正是为了解决这个问题而生:把长视频的每一帧压缩成一个token,同时保留最关键的视觉信息。
🌊 视频理解的"token海啸"
问题有多严重?
现代视觉-语言模型(VLMs)处理视频时,每个画面帧会被编码成数十到数百个token:
- 一张图片 → 数百个token
- 一段视频(假设1000帧)→ 数万到数十万个token
但大型语言模型(LLMs)的上下文长度是有限的。典型的限制是:
- 32K token
- 128K token
