当前位置：首页 > news >正文

从AVCC到Annex B：深入解析H.264 NALU封装格式的转换与应用

news 2026/4/23 18:36:25

1. 为什么需要了解AVCC和Annex B格式转换

第一次接触H.264视频处理时，我遇到一个奇怪现象：从MP4文件提取的H.264流无法直接在播放器里打开，而同样的内容转封装为TS格式却能正常播放。后来发现这其实是AVCC和Annex B两种NALU封装格式在作祟。这两种格式就像快递包裹的不同打包方式——虽然里面装的是同样的货物（视频数据），但外包装和装箱单的写法完全不同。

AVCC格式常见于MP4容器中，它的特点是用明确的长度字段标记每个NALU大小。比如一个视频帧被拆分成三个NALU，AVCC会在每个NALU前面加4个字节的长度信息（比如00 00 00 23表示后续NALU有35字节）。这种结构特别适合随机访问的场景，比如你想快速跳转到视频的某个位置，解码器只需要读取前面的长度标记就能准确定位。

而Annex B格式则是用起始码（Start Code）分隔NALU，每个NALU前面会插入00 00 00 01或00 00 01这样的特殊标记。这种格式常见于实时流媒体和广播系统，比如你在视频会议中传输的H.264流，或者电视台使用的TS流。起始码有个天然优势——当传输过程中出现数据丢失时，解码器可以通过扫描起始码快速重新同步。

2. AVCC格式的深层解析

2.1 AVCC的二进制结构剖析

打开一个MP4文件的视频轨道，前20个字节左右就是AVCC配置信息。我用十六进制编辑器查看时发现，这部分数据就像视频的"身份证"。前5个字节特别关键：

第1字节永远是0x01，表示配置版本
第2字节是profile（比如0x64表示High Profile）
第3字节是兼容性标志
第4字节是level（比如0x1E对应Level 3.0）
第5字节的低2位决定NALU长度字段大小（通常0xFC表示长度占4字节）

接下来就是SPS和PPS的表演时间了。SPS就像视频的"出生证明"，记录着分辨率、帧率等核心参数。我解析过一个1280x720的视频，其SPS里藏着这样的信息：

00 00 00 01 67 64 00 1E AC D9 40 ...

这里的0x67表示SPS类型，后面的64 00 1E对应profile和level，AC D9 40则编码了分辨率等信息。PPS则更像是"使用说明书"，告诉解码器该如何处理具体帧数据。

2.2 实战：手动解析AVCC头

用Python可以轻松提取这些信息：

import struct def parse_avcc(data): config_version = data[0] profile = data[1] compatibility = data[2] level = data[3] length_size = (data[4] & 0x03) + 1 sps_count = data[5] & 0x1F pos = 6 sps_list = [] for _ in range(sps_count): sps_size = struct.unpack('>H', data[pos:pos+2])[0] pos += 2 sps_list.append(data[pos:pos+sps_size]) pos += sps_size pps_count = data[pos] pos += 1 pps_list = [] for _ in range(pps_count): pps_size = struct.unpack('>H', data[pos:pos+2])[0] pos += 2 pps_list.append(data[pos:pos+pps_size]) pos += pps_size return { 'profile': profile, 'level': level, 'sps': sps_list, 'pps': pps_list }

3. Annex B格式的特点与应用场景

3.1 起始码的玄机

Annex B格式最显著的特征就是随处可见的00 00 01和00 00 00 01。这些起始码就像书页的页码标记，帮助解码器快速定位NALU边界。在实际项目中，我发现个有趣现象：当NALU很大时（比如I帧），通常用4字节起始码；而小NALU（如SEI信息）则多用3字节版本。

起始码设计有个精妙之处：防止数据混淆。由于H.264编码使用指数哥伦布编码，原始数据中也可能出现00 00这样的序列。Annex B通过强制在起始码前插入防竞争字节（emulation prevention byte）0x03来解决这个问题。比如原始数据中出现00 00 02会被转义为00 00 03 02。

3.2 流媒体为何偏爱Annex B

在开发直播系统时，我深刻体会到Annex B的优势。当观众中途加入直播，解码器需要快速找到最近的I帧开始解码。Annex B的起始码让这个过程变得简单——只需要在数据流中扫描00 00 01 65（0x65对应IDR帧）就能立即定位关键帧。

对比测试显示，在10Mbps的1080p视频流中，AVCC格式的随机访问耗时约15ms，而Annex B仅需3ms。这是因为：

Annex B不需要预先计算NALU长度
起始码扫描可以通过硬件加速
错误恢复更简单，丢失数据后只需重新同步到下一个起始码

4. 格式转换的实战技巧

4.1 用FFmpeg进行无损转换

FFmpeg的bitstream filter（-bsf）是处理格式转换的瑞士军刀。这里分享几个实用命令：

MP4转TS流（AVCC→Annex B）：

ffmpeg -i input.mp4 -c copy -bsf:v h264_mp4toannexb -f mpegts output.ts

提取裸H.264流：

ffmpeg -i input.mp4 -c copy -bsf:v h264_mp4toannexb output.h264

反向转换（Annex B→AVCC）：

ffmpeg -i input.h264 -c copy -bsf:v h264_annexbtomp4 output.mp4

特别注意：转换SPS/PPS时可能会遇到"no start code is found"错误。这通常是因为输入文件已经损坏或者格式不符合预期。我常用的解决方案是先强制指定输入格式：

ffmpeg -f h264 -i input.h264 -c copy output.mp4

4.2 编程实现格式转换

对于需要集成到应用中的场景，可以用libavcodec直接处理。以下是关键步骤的C代码示例：

AVBitStreamFilterContext* mp4toannexb = av_bitstream_filter_init("h264_mp4toannexb"); AVPacket pkt; while (av_read_frame(fmt_ctx, &pkt) >= 0) { if (pkt.stream_index == video_stream_idx) { uint8_t* new_data = NULL; int new_size = 0; av_bitstream_filter_filter( mp4toannexb, codec_ctx, NULL, &new_data, &new_size, pkt.data, pkt.size, pkt.flags & AV_PKT_FLAG_KEY ); if (new_size > 0) { // 处理转换后的Annex B数据 process_annexb_data(new_data, new_size); } } av_packet_unref(&pkt); }

5. 转换过程中的常见陷阱

5.1 SPS/PPS丢失问题

去年处理一个监控视频项目时，遇到播放花屏问题。最终发现是AVCC转Annex B时漏掉了SPS/PPS。现在我的转换流程都会强制包含这些参数：

ffmpeg -i input.mp4 -c copy -bsf:v 'h264_mp4toannexb=insert_aud=1' output.h264

其中insert_aud=1会插入Access Unit Delimiter（AUD），帮助解码器识别帧边界。对于关键帧，我还会额外检查：

SPS/PPS是否出现在每个IDR帧之前
NALU顺序是否符合：SPS→PPS→SEI→IDR
起始码是否完整（00 00 00 01）

5.2 时间戳处理难题

在将RTMP流（Annex B）转存为MP4时，时间戳问题让我栽过跟头。解决方案是：

保留原始时间戳
处理B帧时注意解码顺序和显示顺序差异
使用FFmpeg的-avoid_negative_ts选项：

ffmpeg -i input.flv -c copy -avoid_negative_ts make_zero output.mp4

对于直播场景，还需要特别注意：

首个视频帧的PTS必须为0
音频和视频的time_base要统一
遇到时间戳跳变时要插入discontinuity标记

6. 性能优化实践

6.1 硬件加速转换

处理4K视频时，软件转换可能成为瓶颈。我测试过三种硬件加速方案：

NVIDIA NVENC：通过CUDA加速，速度提升8倍

ffmpeg -hwaccel cuda -i input.mp4 -c:v h264_nvenc -bsf:v h264_mp4toannexb output.h264

Intel QSV：适合集成显卡设备
VAAPI：Linux下的通用方案

测试数据显示，在RTX 3060上转换1分钟4K视频：

软件方式：12秒
NVENC加速：1.5秒
内存占用从1.2GB降至200MB

6.2 内存优化技巧

处理长视频时，我总结出这些经验：

使用零拷贝模式避免内存复制
设置合理的缓冲区大小（通常2-4个帧大小）
对于实时流，启用环形缓冲区防止内存暴涨

一个实用的Python示例：

import av container = av.open('input.mp4', options={'fflags': 'nobuffer'}) for packet in container.demux(video=0): if packet.stream.type == 'video': # 直接访问原始数据 annexb_data = packet.to_bytes()

7. 进阶应用场景

7.1 动态码率切换

在ABR（自适应码率）流媒体中，我经常需要同时处理多种格式。比如一个DASH流可能包含：

1080p的AVCC格式（MP4容器）
720p的Annex B格式（TS容器）

关键是要统一管理SPS/PPS集。我的做法是：

提取最高分辨率的SPS作为主参数集
动态注入到各码率版本中
使用MPD（Media Presentation Description）中的codecs参数确保兼容性

7.2 加密视频处理

处理DRM保护的视频时，格式转换要特别注意：

先解密再转换（如使用libwidevine）
保持加密头信息完整
转换后重新加密

一个典型的工作流：

# 解密 mp4decrypt --key 1:1234567890abcdef input.mp4 decrypted.mp4 # 格式转换 ffmpeg -i decrypted.mp4 -c copy -bsf:v h264_mp4toannexb temp.h264 # 重新加密 mp4encrypt --method MPEG-CENC --key 1:1234567890abcdef --property 1:KID=abcdefghijklmnop temp.h264 encrypted.h264

8. 调试与问题排查

8.1 常见错误代码解析

0x00000001：通常表示起始码缺失，检查NALU分隔符
0x00000002：SPS/PPS不完整，验证AVCC头结构
0x00000003：时间戳溢出，检查PTS/DTS连续性

我常用的调试命令组合：

# 查看详细流信息 ffprobe -show_frames -select_streams v input.mp4 # 十六进制查看NALU xxd -g 1 -l 128 output.h264 | less # 验证Annex B结构 h264_analyze output.h264

8.2 日志分析技巧

在FFmpeg日志中，这些信息特别有用：

"[h264 @ 0x7f...] no frame!"：通常表示SPS/PPS丢失
"non-existing PPS referenced"：PPS未正确初始化
"decode_slice_header error"：可能是起始码问题

我通常会启用调试日志：

ffmpeg -loglevel debug -i input.mp4 ...

对于复杂问题，还会结合Wireshark分析网络包，或使用GDB调试FFmpeg内部状态。

查看全文

http://www.jsqmd.com/news/688540/

指针经典编程练习题解题方法 + 完整代码

Happy Island Designer完整指南：如何快速创建完美的动物森友会岛屿布局

海口宝妈必看！语言发育迟缓干预中心大盘点 - 品牌测评鉴赏家

告别Three.js！用3Dmol.js在网页里轻松展示分子结构（附完整代码）

自学历程09-YOLOv8主干网络改造：以BiFPN为例详解模块集成

Mintegral 再次通过 SOC2 Type2 与 SOC3 鉴证，深化数据安全与合规

从数据到部署：YOLO26吸烟行为检测系统实战（香烟/人/烟雾/电子烟/吸烟动作）（项目源码+数据集+模型权重+UI界面+python+深度学习+远程环境部署）

#广州最推荐的初中有哪些？2026年增城等地市场选择前5排名 - 十大品牌榜

国际升学新选择：赫德教育集团如何化解高考留学难题 - 资讯焦点

风华高科开路设计多层片式陶瓷电容器（Open Mode Design MLCC）

FlicFlac音频转换工具：7种格式互转的完整解决方案

谁来讲讲，到底啥是云服务器？

传统开发逐渐贬值，大模型开发才是未来刚需

给硬件工程师的NVDLA架构选型指南：从Atomic-C/K到卷积缓冲，如何为你的AI芯片定制加速器

告别手动调序！Vue3 + Element Plus表格拖拽排序保姆级教程（附完整代码）

2026年4月|全国商用性净水器供应商：浩圆净水 - 资讯焦点

AI万能指令

给 OpenClaw 加上企业级 Memory，你的 Agent 终于不用再问第二遍

互联网大厂 Java 求职面试：从 Spring Boot 到微服务的深度探讨

SpringBoot项目里，用Caffeine和Spring Cache注解搞定本地缓存（附完整代码）

告别App Store！三种主流签名方式（企业签/超级签/TF签）手把手教你安装自研iOS App

老年健康移动应用设计：挑战、解决方案与实践

抖音批量下载工具终极指南：三步实现高效免费下载

举升机之选：五大主流品牌实力与场景适配深度测评 - 资讯焦点

React 性能优化的手段有哪些？

曹操出行难做Robotaxi版“滴滴”

Windows下Python venv报错exit status 1？别急着删文件夹，试试这个--without-pip参数

为什么需要专业的冷气机、工业制冷机与液冷测试机？2026年冷气机/工业制冷机/液冷测试机精选推荐公司 - 品牌推荐大师1

核心零部件难在哪儿？盈诺、日立、佳航三家DSC的传感器灵敏度与热流噪声数据公开 - 品牌推荐大师1