当前位置：首页 > news >正文

PyTorch 2.8 镜像部署MySQL：管理AI实验元数据与数据集

news 2026/8/2 3:53:22

PyTorch 2.8 镜像部署MySQL：管理AI实验元数据与数据集

1. 为什么需要实验数据管理

在深度学习项目中，我们经常面临这样的困扰：上周跑的那个效果不错的模型，具体用了哪些参数？上个月测试的那个数据集版本，现在找不到了怎么办？这些问题都指向一个核心需求——实验数据管理。

想象一下，如果你的AI实验记录像实验室笔记本一样井井有条，随时可以回溯任何一次实验的完整配置和数据，那会是什么体验？这就是我们今天要实现的：用MySQL为PyTorch项目搭建一个可靠的实验元数据管理系统。

2. 环境准备与MySQL安装

2.1 启动PyTorch 2.8镜像

首先确保你已经拉取了PyTorch 2.8的官方镜像。如果你还没有，可以这样获取：

docker pull pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime

启动容器时，我们需要映射MySQL的默认端口：

docker run -it --name pytorch-mysql -p 3306:3306 pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime

2.2 安装MySQL服务器

进入容器后，更新软件包列表并安装MySQL：

apt-get update apt-get install -y mysql-server

安装完成后，启动MySQL服务：

service mysql start

2.3 基本安全配置

运行安全安装脚本，设置root密码并移除测试数据库：

mysql_secure_installation

按照提示操作即可。建议设置一个强密码，并记下来后续使用。

3. 数据库设计与配置

3.1 创建实验管理数据库

登录MySQL控制台：

mysql -u root -p

然后创建我们的实验管理数据库：

CREATE DATABASE ai_experiments; USE ai_experiments;

3.2 设计实验元数据表

一个完整的实验跟踪系统需要记录多种信息。我们先从基础表开始：

CREATE TABLE experiments ( id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR(255) NOT NULL, description TEXT, start_time DATETIME DEFAULT CURRENT_TIMESTAMP, end_time DATETIME, status ENUM('running', 'completed', 'failed') DEFAULT 'running', git_commit VARCHAR(40), notes TEXT ); CREATE TABLE hyperparameters ( id INT AUTO_INCREMENT PRIMARY KEY, experiment_id INT NOT NULL, name VARCHAR(255) NOT NULL, value TEXT NOT NULL, FOREIGN KEY (experiment_id) REFERENCES experiments(id) ON DELETE CASCADE ); CREATE TABLE metrics ( id INT AUTO_INCREMENT PRIMARY KEY, experiment_id INT NOT NULL, epoch INT NOT NULL, name VARCHAR(255) NOT NULL, value FLOAT NOT NULL, FOREIGN KEY (experiment_id) REFERENCES experiments(id) ON DELETE CASCADE ); CREATE TABLE datasets ( id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR(255) NOT NULL, version VARCHAR(50) NOT NULL, path TEXT NOT NULL, created_at DATETIME DEFAULT CURRENT_TIMESTAMP, description TEXT, UNIQUE KEY (name, version) );

这个设计包含了实验基本信息、超参数、训练指标和数据集版本管理，已经能满足大多数项目的需求。

4. 使用SQLAlchemy进行ORM操作

4.1 安装必要Python包

在PyTorch环境中安装SQLAlchemy和MySQL连接器：

pip install sqlalchemy pymysql

4.2 创建数据库连接

在Python代码中建立与MySQL的连接：

from sqlalchemy import create_engine, Column, Integer, String, Float, Text, DateTime, Enum, ForeignKey from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker, relationship import datetime # 替换为你的实际密码 DATABASE_URL = "mysql+pymysql://root:yourpassword@localhost/ai_experiments" engine = create_engine(DATABASE_URL) SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine) Base = declarative_base()

4.3 定义ORM模型

将我们之前设计的表结构转换为Python类：

class Experiment(Base): __tablename__ = "experiments" id = Column(Integer, primary_key=True, index=True) name = Column(String(255), nullable=False) description = Column(Text) start_time = Column(DateTime, default=datetime.datetime.now) end_time = Column(DateTime) status = Column(Enum('running', 'completed', 'failed'), default='running') git_commit = Column(String(40)) notes = Column(Text) hyperparameters = relationship("Hyperparameter", back_populates="experiment") metrics = relationship("Metric", back_populates="experiment") class Hyperparameter(Base): __tablename__ = "hyperparameters" id = Column(Integer, primary_key=True, index=True) experiment_id = Column(Integer, ForeignKey("experiments.id")) name = Column(String(255), nullable=False) value = Column(Text, nullable=False) experiment = relationship("Experiment", back_populates="hyperparameters") class Metric(Base): __tablename__ = "metrics" id = Column(Integer, primary_key=True, index=True) experiment_id = Column(Integer, ForeignKey("experiments.id")) epoch = Column(Integer, nullable=False) name = Column(String(255), nullable=False) value = Column(Float, nullable=False) experiment = relationship("Experiment", back_populates="metrics") class Dataset(Base): __tablename__ = "datasets" id = Column(Integer, primary_key=True, index=True) name = Column(String(255), nullable=False) version = Column(String(50), nullable=False) path = Column(Text, nullable=False) created_at = Column(DateTime, default=datetime.datetime.now) description = Column(Text)

4.4 创建数据库表

在首次运行时，需要创建所有表：

Base.metadata.create_all(bind=engine)

5. 实战：记录训练实验

5.1 开始新实验

def start_experiment(name, description=None, git_commit=None): db = SessionLocal() experiment = Experiment( name=name, description=description, git_commit=git_commit ) db.add(experiment) db.commit() db.refresh(experiment) return experiment

5.2 记录超参数

def add_hyperparameters(experiment_id, params_dict): db = SessionLocal() for name, value in params_dict.items(): param = Hyperparameter( experiment_id=experiment_id, name=name, value=str(value) ) db.add(param) db.commit()

5.3 记录训练指标

def log_metrics(experiment_id, epoch, metrics_dict): db = SessionLocal() for name, value in metrics_dict.items(): metric = Metric( experiment_id=experiment_id, epoch=epoch, name=name, value=value ) db.add(metric) db.commit()

5.4 完成实验

def complete_experiment(experiment_id, notes=None): db = SessionLocal() experiment = db.query(Experiment).filter(Experiment.id == experiment_id).first() if experiment: experiment.status = 'completed' experiment.end_time = datetime.datetime.now() experiment.notes = notes db.commit()

6. 查询与分析实验数据

6.1 查询特定实验

def get_experiment(experiment_id): db = SessionLocal() return db.query(Experiment).filter(Experiment.id == experiment_id).first()

6.2 获取实验指标趋势

def get_metric_trend(experiment_id, metric_name): db = SessionLocal() metrics = db.query(Metric).filter( Metric.experiment_id == experiment_id, Metric.name == metric_name ).order_by(Metric.epoch).all() return [(m.epoch, m.value) for m in metrics]

6.3 比较不同实验

def compare_experiments(experiment_ids, metric_name): db = SessionLocal() results = {} for exp_id in experiment_ids: metrics = db.query(Metric).filter( Metric.experiment_id == exp_id, Metric.name == metric_name ).order_by(Metric.epoch).all() results[exp_id] = [(m.epoch, m.value) for m in metrics] return results

7. 数据集版本管理

7.1 注册新数据集版本

def register_dataset(name, version, path, description=None): db = SessionLocal() dataset = Dataset( name=name, version=version, path=path, description=description ) db.add(dataset) db.commit() return dataset

7.2 查询数据集信息

def get_dataset(name, version=None): db = SessionLocal() if version: return db.query(Dataset).filter( Dataset.name == name, Dataset.version == version ).first() else: return db.query(Dataset).filter( Dataset.name == name ).order_by(Dataset.created_at.desc()).all()