当前位置：首页 > news >正文

Action100M：视频动作识别的大规模数据集与开放词汇技术

news 2026/6/8 8:04:44

1. Action100M：重新定义视频动作理解的规模与边界

在计算机视觉领域，视频动作识别一直是个极具挑战性的研究方向。想象一下，当你观看一段烹饪视频时，人类大脑能轻松识别"切西红柿"、"搅拌面糊"等动作，并理解这些动作如何组合成完整的"制作披萨"流程。这种从视觉观察中推断物理动作的能力，正是当前AI系统与人类智能的关键差距之一。

传统视频动作识别面临三大瓶颈：数据集规模有限（通常仅含数千至百万级样本）、领域覆盖狭窄（如仅限厨房场景）、以及标注词汇封闭（预定义的动作类别列表）。这导致训练出的模型如同"井底之蛙"，只能在特定领域表现良好，遇到新场景或未见过的动作描述时便束手无策。

1.1 开放词汇动作识别的技术需求

开放词汇(Open-Vocabulary)动作识别要求模型能理解并识别训练时从未明确标注过的动作描述。实现这一目标需要三个关键要素：

大规模数据：覆盖足够多样的动作类型和环境场景
丰富语义：包含自然语言描述而非固定标签
层次结构：同时建模原子动作和复杂活动流程

现有数据集如EPIC-KITCHENS-100（厨房场景）或Something-Something（简单物体交互）虽然质量较高，但规模仅数万样本，且局限于特定领域。而HowTo100M等大规模数据集虽有百万级视频，但缺乏精细的动作标注。

关键洞察：动作识别的"Scaling Law"（规模法则）表明，模型性能与训练数据量呈对数线性关系。当数据规模突破亿级时，模型开始展现真正的开放词汇能力。

2. Action100M数据集架构解析

2.1 数据来源与基础统计

Action100M基于1.2百万个经过人脸模糊处理的YouTube教学视频构建，总时长相当于14.6年连续播放。这些视频来自HowTo100M原始数据集，覆盖12个WikiHow类别（如食品烹饪、家居园艺等），但排除了"人际关系"等抽象类别。

数据集核心统计指标：

147,092,653个标注视频片段
21.27亿单词的文本标注
片段时长分布：
- 64%在0-3秒（原子动作）
- 23.8%在3-10秒（复合动作）
- 10.2%在10秒-1分钟（子任务）
- 2%超过1分钟（完整流程）

2.2 自动化标注流水线设计

Action100M的创新核心在于其全自动的三阶段标注系统：

2.2.1 层次化时间分割

使用V-JEPA 2视觉编码器提取视频帧特征后，采用带局部连接约束的层次化凝聚聚类算法：

以64帧为窗口，8帧步长滑动采样
每个窗口通过ViT-g-384模型提取时空特征
使用Ward linkage方法进行自底向上聚类
保留时长>0.5秒的语义连贯片段

# 伪代码示例：层次化时间分割 def hierarchical_segmentation(video_frames): features = vjepa2_encoder(video_frames) # 提取帧级特征 clustering = AgglomerativeClustering( n_clusters=None, linkage='ward', connectivity=create_time_connectivity_matrix() ) segments = clustering.fit_predict(features) return merge_short_segments(segments, min_duration=0.5)

该算法生成的树状结构中，叶节点对应原子动作（如"拿起刀"），中间节点代表复合动作（如"切蔬菜"），根节点描述整体活动（如"制作沙拉"）。

2.2.2 多级字幕生成

对每个时间节点生成两种互补描述：

帧级描述：使用Llama-3.2-Vision对关键帧生成详细视觉描述示例输入：砧板上的西红柿特写输出："一个成熟的红色西红柿放在木质砧板上，旁边有一把不锈钢菜刀"
片段级描述：使用Perception-LM-3B对32帧采样生成时序感知描述示例输入：切西红柿的3秒片段输出："右手持刀从左向右反复移动，将西红柿切成均匀的薄片"

2.2.3 LLM证据聚合

采用GPT-OSS-120B进行三级自优化(Self-Refine)处理，从多级字幕中提取结构化信息：

字段类型	示例	生成策略
简要动作	"切西红柿"	从子节点动作归纳
详细动作	"用厨刀将西红柿切成5mm薄片"	结合视觉细节
执行者	"厨师右手"	分析肢体动作
简要字幕	"制作沙拉准备食材"	父节点上下文
详细字幕	"厨师先清洗蔬菜，然后...	整合多级证据

技术细节：通过Tree-of-Captions结构，系统将视频转换为层次化文本表示，再应用大语言模型进行推理。这种"视觉→文本→推理"的级联设计比直接处理视频节省约75%计算成本。

3. 数据集特性与质量保障

3.1 语义分布与长尾处理

Action100M中的动作词汇呈现典型的长尾分布：

高频动作："说话镜头"(3.2%)、"展示物体"(2.7%)
中频动作："搅拌"(1.1%)、"切割"(0.9%)
低频动作："校准仪器"(0.002%)、"打蝴蝶结"(0.001%)

为解决长尾问题，团队提出语义重采样技术：

使用EmbeddingGemma将动作描述编码为300维向量
通过文本哈希去重（减少"切菜"与"切蔬菜"等近义重复）
在10^3~10^5个语义簇内均匀采样
确保每个语义类别都有平等训练机会

3.2 标注质量验证

虽然采用自动标注，但通过三重机制保障质量：

多模型共识：V-JEPA、Llama-3.2-Vision、GPT-OSS等多模型交叉验证
层次一致性检查：子节点动作必须与父节点活动逻辑一致
自优化迭代：通过三轮Self-Refine逐步修正矛盾描述

与人工标注的EPIC-KITCHENS对比测试显示：

原子动作识别准确率：92% vs 人工98%
复合动作识别准确率：85% vs 人工91%
执行者识别准确率：78% vs 人工85%

4. VL-JEPA模型训练与应用

4.1 三阶段训练策略

基于Action100M训练VL-JEPA（Vision-Language Joint Embedding Predictive Architecture）模型：

阶段	输入帧数	训练数据	关键调整
1. 图像预训练	1	DataComp-1B+YFCC	冻结视觉编码器
2. 视频训练	8	Action100M	学习动作时序模式
3. 长时序微调	32	Action100M	解冻编码器+梯度累积

模型使用InfoNCE损失函数，在256px分辨率下达到SOTA性能，仅需3B训练样本即超越使用13B样本的CLIP模型。

4.2 零样本迁移性能

在8个标准基准测试上的表现：

动作识别（Top-1准确率）

数据集	VL-JEPA	CLIP	相对提升
SSv2	52.5%	30.7%	+71%
EPIC-KITCHENS	21.8%	3.7%	×5.9
EgoExo4D	33.2%	2.6%	×12.8

视频检索（Recall@1）

数据集	VL-JEPA	SigLIP2	相对提升
MSR-VTT	40.0%	33.9%	+18%
YouCook2	49.0%	34.0%	+44%
DiDeMo	64.9%	41.7%	+56%

特殊发现：模型在程序性活动（如"组装家具"）上的表现显著优于单镜头动作，说明层次化标注有效捕捉了长时序依赖。

5. 应用场景与未来方向

5.1 具身智能训练

Action100M支持三类具身学习任务：

动作模仿：通过视频演示学习物理操作案例：机器人观看"开罐头"视频后，成功识别并操作开罐器
程序理解：分解复杂任务为可执行步骤案例：将"烘焙蛋糕"分解为12个子步骤，准确率89%
状态预测：推断动作对环境的改变案例：预测"倒牛奶"后碗中液体高度变化，误差<5%

5.2 工业质检增强

在制造业中，数据集可用于：

异常动作检测（如违规操作识别）
装配流程验证（步骤顺序检查）
操作员技能评估（动作标准度评分）

某汽车工厂试点显示，使用Action100M预训练模型使质检误报率降低37%。

5.3 技术局限与改进方向

当前不足：

教学视频视角单一（缺乏第一人称/多视角）
部分复杂动作描述不够精确（如"调整"vs"微调"）
非英语视频覆盖率不足（仅占15%）

未来计划：

扩展至50种语言的跨文化动作理解
增加物理交互参数标注（力度、角度等）
结合多模态传感器数据（IMU、力反馈等）

6. 实战：使用Action100M微调自定义模型

6.1 数据准备

from datasets import load_dataset action100m = load_dataset("facebookresearch/Action100M", streaming=True, split="train") # 示例数据样本结构 sample = { "video_id": "yt_1234", "segment_start": 12.5, # 秒 "segment_end": 15.2, "brief_action": "pour liquid", "detailed_action": "slowly pouring milk from carton into measuring cup", "actor": "right hand", "hierarchy_level": 2 # 1=atomic, 2=composite, 3=task }

6.2 模型微调策略

推荐两阶段微调法：

特征适配阶段：
- 冻结视觉编码器
- 仅训练动作分类头
- 使用brief_action作为标签
- 学习率1e-4，batch size 256
全参数微调阶段：
- 解冻最后3层视觉编码器
- 结合detailed_action进行captioning训练
- 学习率5e-6，batch size 64
- 梯度累积4步