当前位置: 首页 > news >正文

DAY 46 Tensorborad使用介绍

一、Tensorborad的发展历史和原理

1.发展历史

TensorBoard是TensorFlow生态中的官方可视化工具(也可无缝集成 PyTorch),用于实时监控训练过程、可视化模型结构、分析数据分布、对比实验结果等。它通过网页端交互界面,将枯燥的训练日志转化为直观的图表和图像,帮助开发者快速定位问题、优化模型。

简单来说,TensorBoard是TensorFlow自带的一个「可视化工具」,就像给机器学习模型训练过程装了一个「监控屏幕」。你可以用它直观看到训练过程中的数据变化(比如损失值、准确率)、模型结构、数据分布等,不用盯着一堆枯燥的数字看,对新手非常友好。

TensorBoard 的发展历程如下:

- 2015 年随着 TensorFlow 框架一起发布,最初是为了满足深度学习研究者可视化复杂模型训练过程的需求。2016-2018 年新增了更多可视化功能,图像 / 音频可视化:可以直接看训练数据里的图片、听音频(比如在图像分类任务中,查看输入的图片是否正确)。

直方图:展示数据分布(比如权重参数的分布是否合理)。

多运行对比:同时对比多个训练任务的结果(比如不同学习率的效果对比)。

- 2019 年后与 PyTorch 兼容,变得更通用了。功能进一步丰富,比如支持3D 可视化、模型参数调试等。

目前这个工具还在不断发展,比如一些额外功能在tensorboardX上存在,但是我们目前只需要要用到最经典的几个功能即可

(1)保存模型结构图

(2)保存训练集和验证集的loss变化曲线,不需要手动打印了

(3)保存每一个层结构权重分布

(4)保存预测图片的预测信息

2.原理

TensorBoard 的核心原理就是在训练过程中,把训练过程中的数据(比如损失、准确率、图片等)先记录到日志文件里,再通过工具把这些日志文件可视化成图表,这样就不用自己手动打印数据或者用其他工具画图。

所以核心就是2个步骤:

- 数据怎么存?—— 先写日志文件

训练模型时,TensorBoard 会让程序把训练数据(比如损失值、准确率)和模型结构等信息,写入一个特殊的日志文件(.tfevents 文件)

- 数据怎么看?—— 用网页展示日志

写完日志后,TensorBoard 会启动一个本地网页服务,自动读取日志文件里的数据,用图表、图像、文本等形式展示出来。如果只用 print(损失值) 或者自己用 matplotlib 画图,不仅麻烦,还得手动保存数据、写代码,尤其训练几天几夜时,根本没法实时盯着看。而 TensorBoard 能自动把这些数据 “存下来 + 画出来”,还能生成网页版的可视化界面,随时刷新查看。

二、Tensorborad的常见操作

1.日志目录自动管理

log_dir = 'runs/cifar10_mlp_experiment' if os.path.exists(log_dir): i = 1 while os.path.exists(f"{log_dir}_{i}"): i += 1 log_dir = f"{log_dir}_{i}" writer = SummaryWriter(log_dir) #关键入口,用于写入数据到日志目录

2.记录标量数据(Scalar)

# 记录每个 Batch 的损失和准确率 writer.add_scalar('Train/Batch_Loss', batch_loss, global_step) writer.add_scalar('Train/Batch_Accuracy', batch_acc, global_step) # 记录每个 Epoch 的训练指标 writer.add_scalar('Train/Epoch_Loss', epoch_train_loss, epoch) writer.add_scalar('Train/Epoch_Accuracy', epoch_train_acc, epoch)

3.可视化模型结构(Graph)

dataiter = iter(train_loader) images, labels = next(dataiter) images = images.to(device) writer.add_graph(model, images) # 通过真实输入样本生成模型计算图

4.可视化图像(Image)

# 可视化原始训练图像 img_grid = torchvision.utils.make_grid(images[:8].cpu()) # 将多张图像拼接成网格状(方便可视化),将前8张图像拼接成一个网格 writer.add_image('原始训练图像', img_grid) # 可视化错误预测样本(训练结束后) wrong_img_grid = torchvision.utils.make_grid(wrong_images[:display_count]) writer.add_image('错误预测样本', wrong_img_grid)

5.记录权重和梯度直方图(Histogram)

if (batch_idx + 1) % 500 == 0: for name, param in model.named_parameters(): writer.add_histogram(f'weights/{name}', param, global_step) # 权重分布 if param.grad is not None: writer.add_histogram(f'grads/{name}', param.grad, global_step) # 梯度分布

6.启动tensorboard

运行代码后,会在指定目录(如 runs/cifar10_mlp_experiment_1)生成 .tfevents 文件,存储所有 TensorBoard 数据。

在终端执行(需进入项目根目录):

tensorboard --logdir=runs # 假设日志目录在 runs/ 下

打开浏览器,输入终端提示的 URL(通常为 http://localhost:6006)。

@浙大疏锦行

http://www.jsqmd.com/news/141050/

相关文章:

  • 13、探索Silverlight与HTML的深度融合:实现丰富的浏览器集成体验
  • 9、PHP开发中的反射API、版本控制与单元测试
  • 唐杰Karpathy:2025年,大模型从「读博士」到「打工人」的生死跨越
  • 14、ASP.NET与Silverlight:控件、服务与交互全解析
  • 《吃透 C++ vector:从基础使用到核心接口实战指南》
  • 15、深入理解 Silverlight 数据绑定:从基础到高级应用
  • Dify如何支持增量学习以适应动态数据?
  • 一文说清DUT在FPGA原型验证中的作用机制
  • 16、Silverlight 隔离存储与本地文件读取全解析
  • OrCAD下载+安装+激活完整流程:系统学习版
  • 2、Puppet入门指南
  • C++ 开发者必看!STL 库 + 字符编码一篇通,告别乱码与重复造轮子
  • 3、Puppet安装与配置全指南
  • 机器学习大厂面试题合集
  • Dify平台的地理位置语义理解能力测试
  • 4、Puppet 入门指南:从基础配置到模块应用
  • Zephyr系统睡眠模式详解:节能策略完整指南
  • GISer必看系列⑧|地信各个技术方向的职业发展路线
  • 2026年零售人实录:一边“内卷”求加薪,一边被AI悄悄“卷”
  • 2、企业软件开发中的需求与设计详解
  • Elasticsearch下载Windows系统适配核心要点解析
  • Dify在自动驾驶语义理解模块中的潜在应用
  • Dify镜像更新频率及版本迭代规律分析
  • Dify平台的停机维护窗口规划建议
  • Dify能否胜任大规模生产环境?运维视角解析
  • Dify平台的负载均衡配置最佳实践
  • Dify与Kubernetes集群协同部署的技术要点
  • 3、软件设计模式与架构解析
  • 4、软件开发模式、架构与生命周期方法解析
  • 手把手教你Elasticsearch安装与集群搭建全过程