当前位置：首页 > news >正文

102_PyTorch 视觉预处理利器：Transforms 工具箱全解析

news 2026/3/26 23:19:51

在深度学习的图像处理任务中，原始图像无法直接进入神经网络。torchvision.transforms就像是一个图像加工车间，负责将各种格式的图片转换为模型可识别、易收敛的数学张量。

1. Transforms 的核心本质

transforms的本质是一个工具箱，提供了多种图像处理类。它的工作流通常如下：

创建工具：根据需求实例化一个转换类（如ToTensor）。
加工图片：将图片输入该工具，得到处理后的结果。

2. 常用工具详解

① ToTensor (最基础的转换)

这是几乎所有流水线的起点。

功能：将PIL Image或numpy.ndarray转换为FloatTensor。
数学变化：它会自动将像素值从 $[0, 255]$ 归一化到 $[0.0, 1.0]$ 之间。
代码示例：

Python

from torchvision import transforms tool = transforms.ToTensor() img_tensor = tool(img_pil) # 此时图片变为了模型可算的张量

② Normalize (标准化)

标准化能让模型训练更稳定，收敛更快。

公式：$output = \frac{input - mean}{std}$。
参数：需要为每一个通道（如 RGB 三通道）提供均值（mean）和标准差（std）。
代码示例：

Python

# 假设均值和标准差都设为 0.5 tool = transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]) img_norm = tool(img_tensor)

③ Resize (尺寸缩放)

确保所有进入模型的图片大小一致。

用法：输入一个序列(h, w)或单个数值（等比缩放）。
代码示例：transforms.Resize((512, 512))。

3. 进阶：Compose 组合工具

在实际开发中，我们很少只用一种转换。transforms.Compose允许我们将多个工具像接力赛一样串联起来。

代码逻辑完善：

Python

from torchvision import transforms # 定义一套标准加工流程 transform_pipeline = transforms.Compose([ transforms.Resize(512), # 1. 缩放图片 transforms.CenterCrop(448), # 2. 中心裁剪 transforms.ToTensor(), # 3. 转为张量并归一化至 [0, 1] transforms.Normalize([0.5], [0.5]) # 4. 标准化到 [-1, 1] ]) # 一键处理 processed_img = transform_pipeline(img_pil)