当前位置：首页 > news >正文

深度学习项目训练环境代码实例：train.py与val.py修改要点+终端输出结果解析

news 2026/7/26 11:42:29

深度学习项目训练环境代码实例：train.py与val.py修改要点+终端输出结果解析

1. 环境准备与快速上手

深度学习项目训练环境的搭建往往是让初学者头疼的第一步。本镜像基于深度学习项目改进与实战专栏，已经预装了完整的开发环境，让你免去繁琐的环境配置过程。

核心环境配置：

PyTorch 1.13.0 + CUDA 11.6
Python 3.10.0
常用深度学习库：torchvision、torchaudio、OpenCV、NumPy等

启动环境后，首先需要激活conda环境：

conda activate dl

然后切换到你的工作目录：

cd /root/workspace/你的项目文件夹

2. train.py文件修改要点

2.1 数据集路径配置

在train.py中，最重要的修改是正确设置数据集路径。通常需要修改以下几个关键参数：

# 数据集路径设置 data_dir = '/root/workspace/your_dataset' # 修改为你的数据集路径 train_dir = os.path.join(data_dir, 'train') val_dir = os.path.join(data_dir, 'val') # 训练参数调整 batch_size = 32 # 根据GPU内存调整 num_epochs = 50 # 训练轮数 learning_rate = 0.001 # 学习率

2.2 模型选择与配置

根据你的任务需求选择合适的模型：

# 模型选择示例 model = models.resnet50(pretrained=True) # 使用预训练的ResNet50 num_ftrs = model.fc.in_features model.fc = nn.Linear(num_ftrs, num_classes) # 修改最后一层适配你的分类数 # 或者使用其他模型 # model = models.vgg16(pretrained=True) # model = models.efficientnet_b0(pretrained=True)

2.3 训练参数优化

调整训练参数以适应你的硬件和数据集：

# 优化器选择 optimizer = optim.Adam(model.parameters(), lr=learning_rate, weight_decay=1e-4) # 学习率调度器 scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1) # 损失函数 criterion = nn.CrossEntropyLoss()

3. val.py文件修改要点

3.1 验证集路径设置

验证脚本需要正确指向你的验证数据集：

# 验证集路径 val_data_dir = '/root/workspace/your_dataset/val' # 修改为你的验证集路径 # 加载训练好的模型 model_path = '/root/workspace/checkpoints/best_model.pth' # 修改为你的模型路径 model.load_state_dict(torch.load(model_path)) model.eval() # 设置为评估模式

3.2 验证参数配置

调整验证过程中的参数：

# 验证批大小 val_batch_size = 32 # 数据预处理（需要与训练时保持一致） val_transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ])

4. 终端输出结果解析

4.1 训练过程输出解析

训练开始时，你会看到类似这样的输出：

Epoch [1/50], Step [100/500], Loss: 1.8765, Accuracy: 0.3125 Epoch [1/50], Step [200/500], Loss: 1.5432, Accuracy: 0.4531 Epoch [1/50], Step [300/500], Loss: 1.2345, Accuracy: 0.5625 Epoch [1/50], Step [400/500], Loss: 0.9876, Accuracy: 0.6719 Epoch [1/50], Step [500/500], Loss: 0.8765, Accuracy: 0.7188

关键指标解读：

Loss（损失值）：表示模型预测与真实标签的差异，越小越好
Accuracy（准确率）：预测正确的样本比例，越大越好
正常情况：Loss应该逐渐下降，Accuracy应该逐渐上升

4.2 验证过程输出解析

验证完成后会显示详细结果：

Validation Results: Total samples: 1000 Correct predictions: 850 Accuracy: 85.00% Precision: 0.8462 Recall: 0.8333 F1-Score: 0.8397 Class-wise Accuracy: Class 0: 92.0% (92/100) Class 1: 78.0% (78/100) Class 2: 85.0% (85/100)

性能指标说明：

Accuracy：整体分类准确率
Precision：预测为正样本中真正为正的比例
Recall：真正为正的样本中被正确预测的比例
F1-Score：Precision和Recall的调和平均

4.3 常见输出问题诊断

问题1：Loss不下降

Epoch [10/50], Loss: 1.8765 (no improvement)

可能原因：学习率太大、模型架构问题、数据预处理错误

问题2：Accuracy波动大

Accuracy: 0.75 → 0.45 → 0.68 → 0.52

可能原因：批大小太小、学习率太高、数据分布不均匀

问题3：内存不足报错

CUDA out of memory. Try reducing batch size.

解决方案：减小batch_size、使用梯度累积

5. 实用技巧与建议

5.1 训练过程监控

使用tqdm添加进度条，更直观地观察训练进度：

from tqdm import tqdm for epoch in range(num_epochs): # 训练阶段 model.train() train_loss = 0.0 correct = 0 total = 0 with tqdm(train_loader, desc=f'Epoch {epoch+1}/{num_epochs}') as pbar: for inputs, labels in pbar: # 训练代码... pbar.set_postfix({'Loss': loss.item(), 'Acc': accuracy})

5.2 模型保存策略

实现早停机制和最佳模型保存：

best_acc = 0.0 for epoch in range(num_epochs): # 训练和验证... # 保存最佳模型 if val_acc > best_acc: best_acc = val_acc torch.save(model.state_dict(), 'best_model.pth') print(f'New best model saved with accuracy: {best_acc:.2f}%') # 早停机制 if epoch > 20 and best_acc < 0.6: print("Early stopping triggered") break

5.3 结果可视化

训练完成后生成损失和准确率曲线：

import matplotlib.pyplot as plt plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.plot(train_losses, label='Training Loss') plt.plot(val_losses, label='Validation Loss') plt.legend() plt.subplot(1, 2, 2) plt.plot(train_accs, label='Training Accuracy') plt.plot(val_accs, label='Validation Accuracy') plt.legend() plt.savefig('training_curves.png')