Determined:一个集成的深度学习训练平台
文章目录
- Determined:一个集成的深度学习训练平台
Determined:一个集成的深度学习训练平台
开源项目 Determined 是一个面向深度学习的一体化平台,目前已获得 3,225 个 Star:
Determined 兼容 PyTorch 和 TensorFlow,覆盖了模型训练中的多个环节:分布式训练、超参数调优、GPU 资源管理以及实验追踪。
项目核心功能分为四个方向:
- 分布式训练:将训练任务拆分到多台机器或多张 GPU 上并行执行,缩短训练周期。
- 超参数调优:内置自适应搜索算法,自动寻找更优的超参数组合。
- 资源管理:对集群中的 GPU 等资源进行调度和分配,降低云端的算力开销。
- 实验追踪:记录每次实验的配置、代码版本和结果,保证可复现性。
Determined 由三个主要部分组成:Python 库、命令行工具(CLI)和 Web 界面。
Python 库
现有 PyTorch 或 TensorFlow 代码可以通过继承 Trial 类来接入 Determined:
fromdetermined.pytorchimportPyTorchTrialclassYourExperiment(PyTorchTrial):def__init__(self,context):...也支持通过 Core API 按需调用所需功能:
importdeterminedasdetwithdet.core.init()ascore_context:...命令行工具
CLI 支持在本地快速启动集群:
det deploylocalcluster-up也支持部署到 AWS 或 GCP:
det deploy aws up提交训练任务时,通过 YAML 文件配置分布式训练和超参数搜索策略:
det experiment create gpt.yaml.resources:slots_per_trial:8priority:1hyperparameters:learning_rate:type:doubleminval:.0001maxval:1.0searcher:name:adaptive_ashametric:validation_losssmaller_is_better:trueWeb 界面
Web UI 用于查看 loss 曲线、超参数分布图、代码快照、模型注册表、集群利用率、调试日志和性能分析报表等。
安装
通过 pip 安装 CLI:
pipinstalldetermined安装后使用det deploy在本地或云平台启动集群。项目同时支持 Kubernetes、Slurm 和 PBS 等环境的部署。
Determined 仓库内包含 30 余个示例项目,涵盖常见模型和任务场景,可直接用于熟悉平台的用法。
时支持 Kubernetes、Slurm 和 PBS 等环境的部署。
Determined 仓库内包含 30 余个示例项目,涵盖常见模型和任务场景,可直接用于熟悉平台的用法。
