data_config=DataConfig(target=[target_col],continuous_cols=features,num_workers=0,)trainer_config=TrainerConfig(batch_size=1024,max_epochs=20,accelerator="gpu")optimizer_config=OptimizerConfig()head_config=LinearHeadConfig(layers="",# No additional layer in head, just a mapping layer to output_dimdropout=0.0,initialization="kaiming",).__dict__# model config requires dictmodel_config=CategoryEmbeddingModelConfig(task="classification",layers="1024-512-512",activation="LeakyReLU",head="LinearHead",head_config=head_config,learning_rate=1e-3,[METRICS ARGUMENTS COME NEXT]

在这一部分，指标的设置有些困惑，因此我会暂停并简要解释一下。我希望在训练过程中能看到几种不同的指标，在这个框架中，这需要为不同的参数传递几个列表。

metrics=["f1_score","average_precision","accuracy","auroc"],metrics_params=[{"task":"multiclass","num_classes":num_classes},{"task":"multiclass","num_classes":num_classes},{},{},],# f1_score and avg prec need num_classes and task identifiermetrics_prob_input=[True,True,False,True,],# f1_score, avg prec, auroc need probability scores, while accuracy doesn't

在这里你可以看到我返回了四个指标，每个指标有不同的实现要求，因此每个列表表示这四个指标及其属性。例如，平均精度需要一些参数来指示这是一个多类问题，并且需要提供涉及的类别数量。与准确率不同，它还要求输入概率结果，而不是原始模型输出。

一旦你完成了所有这些配置，事情就变得非常简单——你只需要将每个对象传递到 TabularModel 模块中。

tabular_model=TabularModel(data_config=data_config,model_config=model_config,optimizer_config=optimizer_config,trainer_config=trainer_config,verbose=True,)

现在你可以开始训练了！

训练

一旦创建了训练集、测试集和验证集，设置训练是非常简单的。

tabular_model.fit(train=train_split_df,validation=val_split_df)result=tabular_model.evaluate(test_split_df)

启用详细模式进行训练时，会显示一个进度条并告知你当前的批次和迭代次数。如果你没有在数据加载器中使用并行处理，它可能会告诉你存在数据加载瓶颈，可以通过增加更多的工作线程来改善——是否关注这个问题取决于你，但由于我的推理任务将在一个非常稀疏的环境中运行，我选择不在数据加载器中使用并行处理。

训练完成后，你可以通过两种不同的方式保存模型——一种是作为 PyTorch Tabular 输出，便于加载进行微调或在 PyTorch Tabular 可用的环境中进行推理。另一种是作为仅用于推理的版本，例如一个基础的 PyTorch 模型，这对我来说非常有价值，因为我需要在一个更加简单的生产环境中使用模型对象。

tabular_model.save_model(f"data/models/tabular_version_{model_name}")# The PyTorch Tabular versiontabular_model.save_model_for_inference(f"data/models/{model_name}",kind="pytorch")# The base PyTorch version

save_model_for_inference方法还有一些其他选项，你可以在文档中阅读相关内容。还要注意，PyTorch Tabular 模型对象在加载时无法从 CPU 转移到 GPU 或反之——你必须保持在用于训练的相同计算资源上，除非你将模型保存为 PyTorch 模型对象。

推理

为了以后进行推理过程时重新加载模型，我发现确实需要保存这两个对象。然而，由于 PyTorch Tabular 模型会输出一个名为datamodule.sav的文件，这是在将数据传递给模型之前，始终如一地格式化推理数据所必需的。你可能自己搭建一个管道来输入数据，但我发现这比按照文档指示使用该文件要麻烦得多。（另外注意，这个文件可能会相当大——我的文件超过了 100MB，因此我选择将其单独存储，而不是与其他代码一起放在部署目录下。）

在 PyTorch Tabular 中，有内置的推理帮助工具，但我发现要以适当的标签和干净有用的格式输出我的多类别预测，仍然需要提取一些帮助代码并在我的代码库中重新编写。对于非多类别应用，这可能不是必需的，但如果你最终走这条路，这是我从中改编的脚本。

这就是推理过程在代码中的表现方式，特征工程等部分省略。（此代码在 AWS Lambda 上的 Docker 中运行。）

model_obj=torch.load("classifier_pytorch")datamodule=joblib.load("datamodule.sav")...inference_dataloader=datamodule.prepare_inference_dataloader(self.processed_event[pytorch_feature_list],batch_size=256)task="classification"point_predictions=[]forbatchintqdm(inference_dataloader,desc="Generating Predictions..."):fork,vinbatch.items():print("New Batch")ifisinstance(v,list)and(len(v)==0):continuebatch[k]=v.to(pytorch_model.device)y_hat,ret_value=pytorch_model.predict(batch,ret_model_output=True)point_predictions.append(y_hat.detach().cpu())

在此之后，预测结果会被格式化并应用 softmax 以获得不同类别的概率，我还可以选择将预测结果重新附加到原始数据集上，供后续评估使用。

结论

总体而言，我对 PyTorch Tabular 在我的应用场景中的表现非常满意，尽管我不确定最终是否会将此模型部署到生产环境中。我面临的最大挑战是确保我的训练过程得到了妥善设计，以确保推理任务（主要是数据加载器）能够在我的生产环境中高效运行，但一旦我解决了这个问题，一切都很好。坦率地说，不用再花时间去思考张量格式化的事情，真的很值得！

所以，如果你想尝试将经典框架（如 CatBoost 或 LightGBM）中的模型适配到 PyTorch，我推荐尝试 PyTorch Tabular——至少，它应该能让你快速上手运行，因此你的实验周转不会太繁琐。下次，我将写关于我究竟是如何使用 PyTorch Tabular 的，并描述在同一问题下比较 CatBoost 和 PyTorch 的性能指标。

我的作品，请访问 www.stephaniekirmer.com。

进一步阅读

[## 探索 PyTorch Tabular 的高级功能

快速上手并避免混淆的概览

相关文章：