当前位置：首页 > news >正文

保姆级教程：用Python脚本搞定Middlebury和ETH3D双目评估结果提交（附避坑指南）

news 2026/7/4 14:05:03

深度估计模型评测实战：Middlebury与ETH3D自动化提交全攻略

当你的双目深度估计模型训练完成，准备在权威评测集上验证性能时，Middlebury和ETH3D这两个标杆数据集往往成为必经之路。但许多研究者发现，从模型输出到最终提交评测的过程，远比想象中复杂——文件格式转换、目录结构规范、时间记录要求，每个环节都可能成为阻碍。本文将提供一套完整的Python自动化解决方案，帮你避开这些"最后一公里"的陷阱。

1. 评测准备：理解数据集的核心差异

在开始编写脚本前，必须清楚两个数据集在评估机制上的本质区别。Middlebury采用训练集/测试集分离的严格模式，要求提交结果时必须包含两个独立目录；而ETH3D则采用统一提交策略，所有测试场景的结果文件直接存放在根目录下。

关键差异对比表：

特性	Middlebury	ETH3D
文件结构	training/和test/子目录	单层扁平结构
命名规范	disp0MonoStereo.pfm	[场景名].pfm
时间记录文件	timeMonoStereo.txt	[场景名].txt
分辨率选项	F/H/Q三种	仅单一分辨率
压缩包层级	直接包含两文件夹	需额外包裹一级目录

提示：Middlebury要求测试集结果必须与训练集同时提交，即使你只关注测试集性能。这是其评估机制的特殊要求。

2. PFM文件生成：从numpy到标准格式的完美转换

深度估计模型通常输出numpy数组，但评测系统要求PFM(Portable Float Map)格式。以下代码块展示了符合Middlebury规范的转换方法：

import numpy as np def save_pfm_middlebury(filepath, disparity, scale=1): """ 符合Middlebury评测要求的PFM保存函数 """ with open(filepath, 'wb') as f: H, W = disparity.shape headers = ["Pf\n", f"{W} {H}\n", f"{-scale}\n"] # 注意负号 for header in headers: f.write(str.encode(header)) # 垂直翻转并转换为float32 array = np.flipud(disparity).astype(np.float32) f.write(array.tobytes())

对于ETH3D，转换逻辑类似但需注意两点差异：

文件名需使用场景名而非固定命名
不需要垂直翻转操作（ETH3D使用不同的坐标系）

def save_pfm_eth3d(filepath, disparity): """ ETH3D专用PFM保存函数 """ with open(filepath, 'wb') as f: H, W = disparity.shape headers = ["Pf\n", f"{W} {H}\n", "1\n"] # scale固定为1 for header in headers: f.write(str.encode(header)) f.write(disparity.astype(np.float32).tobytes())

3. 自动化打包：处理不同目录结构的智能方案

3.1 Middlebury的层级构建

Middlebury要求严格的目录树结构，以下脚本自动创建符合要求的zip包：

import os import zipfile from pathlib import Path def package_middlebury(output_dir, zip_path, resolution='F'): """ 构建Middlebury提交包 """ with zipfile.ZipFile(zip_path, 'w') as zipf: # 必须包含training和test两个目录 for subset in ['training', 'test']: for scene_dir in Path(output_dir).glob(f'*/{subset}{resolution}/*'): if scene_dir.is_dir(): arcname = f"{subset}{resolution}/{scene_dir.parent.name}/" # 添加PFM文件 pfm_file = scene_dir / 'disp0MonoStereo.pfm' if pfm_file.exists(): zipf.write(pfm_file, arcname + 'disp0MonoStereo.pfm') # 添加时间记录文件 time_file = scene_dir / 'timeMonoStereo.txt' if time_file.exists(): zipf.write(time_file, arcname + 'timeMonoStereo.txt')

3.2 ETH3D的扁平化处理

ETH3D的打包逻辑更简单但容易出错，关键是要确保压缩包内有一级中间目录：

def package_eth3d(output_dir, zip_path): """ 构建ETH3D提交包 """ temp_dir = Path(zip_path).parent / "temp_submission" temp_dir.mkdir(exist_ok=True) # 复制所有结果文件到临时目录 for pfm_file in Path(output_dir).glob('*.pfm'): shutil.copy(pfm_file, temp_dir) for txt_file in Path(output_dir).glob('*.txt'): shutil.copy(txt_file, temp_dir) # 关键步骤：创建带中间目录的zip with zipfile.ZipFile(zip_path, 'w') as zipf: for file in temp_dir.glob('*'): zipf.write(file, f"low_res_two_view_all/{file.name}") shutil.rmtree(temp_dir) # 清理临时目录

4. 实战避坑指南：来自三次提交失败的经验

在实际提交过程中，有些错误会直接导致评估失败而不给具体提示。以下是经过验证的解决方案：

常见问题排查清单：

Middlebury特定问题：
- 错误：Invalid submission: missing training set results
  - 解决：即使只评估测试集，也必须包含训练集结果（可用空白文件占位）
- 错误：PFM header format incorrect
  - 检查：确保文件头以Pf\n开头，第二行为宽度高度\n，第三行为-1\n
ETH3D特定问题：
- 错误：Cannot find timing information
  - 解决：时间文件内容必须为runtime x.xx格式（保留"runtime"前缀）
- 错误：Invalid archive structure
  - 检查：zip内必须是low_res_two_view_all/目录，不能直接包含文件
通用问题：
- 文件编码必须为二进制（用'wb'模式写入）
- PFM文件不能包含NaN或inf值
- 时间记录单位必须为秒，且保留两位小数

5. 性能优化：加速大规模结果处理

当处理数百个场景时，文件IO可能成为瓶颈。以下是提升效率的三种方法：

并行处理：使用multiprocessing加速PFM生成

from multiprocessing import Pool def process_scene(args): scene_path, output_dir = args # 生成PFM和time文件... with Pool(processes=8) as pool: pool.map(process_scene, scene_list)

内存缓存：将中间结果保存在内存中减少磁盘操作

from io import BytesIO pfm_buffer = BytesIO() headers = ["Pf\n", "1242 375\n", "-1\n"] for header in headers: pfm_buffer.write(str.encode(header)) pfm_buffer.write(disparity.tobytes())

增量压缩：避免创建临时目录直接构建zip

with zipfile.ZipFile('output.zip', 'w') as zipf: for scene in scenes: with zipf.open(f'trainingF/{scene}/disp0MonoStereo.pfm', 'w') as f: f.write(pfm_buffer.getvalue())

6. 结果验证：本地检查确保万无一失

正式提交前，强烈建议执行本地验证。对于Middlebury，可以使用官方SDK中的verify_submission工具；对于ETH3D，我们开发了轻量级检查脚本：

def validate_eth3d(zip_path): """ ETH3D提交包验证 """ required_suffixes = ['.pfm', '.txt'] with zipfile.ZipFile(zip_path) as z: namelist = z.namelist() # 检查顶层目录 if not any(n.startswith('low_res_two_view_all/') for n in namelist): raise ValueError("Missing top-level directory") # 检查文件配对 pfm_files = [n for n in namelist if n.endswith('.pfm')] txt_files = [n for n in namelist if n.endswith('.txt')] if len(pfm_files) != len(txt_files): raise ValueError("PFM/TXT count mismatch") # 验证文件名一致性 for pfm in pfm_files: base = os.path.splitext(os.path.basename(pfm))[0] if f"{base}.txt" not in [os.path.basename(t) for t in txt_files]: raise ValueError(f"Missing timing file for {base}")

对于无法访问SDK的情况，可以使用简单的PFM解析器进行基础验证：

def validate_pfm(filepath): with open(filepath, 'rb') as f: header = f.readline().decode('ascii').strip() if header != 'Pf': raise ValueError("Invalid PFM header") dims = f.readline().decode('ascii').strip().split() if len(dims) != 2: raise ValueError("Invalid dimensions") scale = float(f.readline().decode('ascii').strip()) # 验证数据大小 expected_size = int(dims[0]) * int(dims[1]) * 4 # float32 f.seek(0, 2) actual_size = f.tell() - f.tell() if actual_size != expected_size: raise ValueError("File size mismatch")

7. 高级技巧：动态适配不同分辨率

Middlebury提供F(Full)、H(Half)、Q(Quarter)三种分辨率选项，我们的脚本需要智能处理这种变化：

def auto_detect_resolution(input_dir): """ 自动检测Middlebury数据集分辨率 """ sample_img = next(Path(input_dir).glob('**/im0.png')) img = Image.open(sample_img) width = img.width resolution_map = { 3000: 'F', # Full分辨率 1500: 'H', # Half 750: 'Q' # Quarter } closest = min(resolution_map.keys(), key=lambda x: abs(x - width)) return resolution_map[closest]

在文件打包时，动态插入检测到的分辨率标识：

resolution = auto_detect_resolution(input_dir) zip_name = f'submission{resolution}.zip'

对于ETH3D，虽然官方目前只有单一分辨率，但我们可以预留接口应对未来变化：

def prepare_eth3d(output_dir, resolution='low'): """ 准备ETH3D提交（兼容未来多分辨率） """ if resolution == 'low': zip_root = 'low_res_two_view_all' else: zip_root = f'{resolution}_res_two_view_all' # 后续打包逻辑...

查看全文

http://www.jsqmd.com/news/545990/