当前位置: 首页 > news >正文

day40复习日@浙大疏锦行

day40复习日@浙大疏锦行

用现有的知识对信贷风险预测数据集建立模型进行了训练

importpandasaspdimportnumpyasnpimporttorchimporttorch.nnasnnimporttorch.optimasoptimfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScaler,LabelEncoderfromsklearn.imputeimportSimpleImputerimportmatplotlib.pyplotaspltfromtqdmimporttqdmimporttime# 设置随机种子torch.manual_seed(42)np.random.seed(42)# 设置GPU设备device=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")print(f"使用设备:{device}")
# 1. 读取数据# 注意:根据文件结构,data.csv 在上一级目录df=pd.read_csv('../data.csv')# 2. 数据预处理# 删除ID列,因为它对预测没有帮助if'Id'indf.columns:df=df.drop('Id',axis=1)# 分离特征和标签X=df.drop('Credit Default',axis=1)y=df['Credit Default']# 区分数值型和类别型特征numerical_cols=X.select_dtypes(include=['int64','float64']).columns categorical_cols=X.select_dtypes(include=['object']).columns# 缺失值处理# 数值型用均值填充imputer_num=SimpleImputer(strategy='mean')X_num=pd.DataFrame(imputer_num.fit_transform(X[numerical_cols]),columns=numerical_cols)# 类别型用众数填充imputer_cat=SimpleImputer(strategy='most_frequent')X_cat=pd.DataFrame(imputer_cat.fit_transform(X[categorical_cols]),columns=categorical_cols)# 类别特征编码 (使用One-Hot编码)X_cat=pd.get_dummies(X_cat,drop_first=True)# 合并数据X=pd.concat([X_num,X_cat],axis=1)# 数据标准化scaler=StandardScaler()X=scaler.fit_transform(X)# 3. 划分训练集和测试集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)# 4. 转换为Tensor并移至GPUX_train=torch.FloatTensor(X_train).to(device)y_train=torch.LongTensor(y_train.values).to(device)X_test=torch.FloatTensor(X_test).to(device)y_test=torch.LongTensor(y_test.values).to(device)print(f"训练集形状:{X_train.shape}")print(f"测试集形状:{X_test.shape}")

训练集形状: torch.Size([6000, 40])

测试集形状: torch.Size([1500, 40])

测试集形状: torch.Size([1500, 40])

classCreditModel(nn.Module):def__init__(self,input_dim):super(CreditModel,self).__init__()self.fc1=nn.Linear(input_dim,128)self.relu1=nn.ReLU()self.dropout1=nn.Dropout(0.3)self.fc2=nn.Linear(128,64)self.relu2=nn.ReLU()self.dropout2=nn.Dropout(0.3)self.fc3=nn.Linear(64,2)# 二分类输出defforward(self,x):out=self.fc1(x)out=self.relu1(out)out=self.dropout1(out)out=self.fc2(out)out=self.relu2(out)out=self.dropout2(out)out=self.fc3(out)returnout# 获取输入维度input_dim=X_train.shape[1]model=CreditModel(input_dim).to(device)print(model)
# 定义损失函数和优化器criterion=nn.CrossEntropyLoss()optimizer=optim.Adam(model.parameters(),lr=0.001)# 训练参数num_epochs=1000losses=[]start_time=time.time()# 使用tqdm显示进度条withtqdm(total=num_epochs,desc="训练进度",unit="epoch")aspbar:forepochinrange(num_epochs):model.train()# 确保在训练模式 (因为有Dropout)# 前向传播outputs=model(X_train)loss=criterion(outputs,y_train)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()# 记录损失losses.append(loss.item())# 更新进度条if(epoch+1)%10==0:pbar.set_postfix({'Loss':f'{loss.item():.4f}'})pbar.update(10)print(f"训练耗时:{time.time()-start_time:.2f}秒")# 绘制损失曲线plt.figure(figsize=(10,5))plt.plot(losses)plt.title('Training Loss')plt.xlabel('Epoch')plt.ylabel('Loss')plt.show()

# 模型评估model.eval()# 切换到评估模式withtorch.no_grad():outputs=model(X_test)_,predicted=torch.max(outputs.data,1)total=y_test.size(0)correct=(predicted==y_test).sum().item()accuracy=100*correct/totalprint(f'测试集准确率:{accuracy:.2f}%')# 简单的推理示例print("\n--- 推理示例 ---")print(f"真实标签:{y_test[:10].cpu().numpy()}")print(f"预测标签:{predicted[:10].cpu().numpy()}")


@浙大疏锦行

http://www.jsqmd.com/news/106172/

相关文章:

  • GEO优化实战指南:如何让品牌在AI搜索中被优先引用
  • 测试中的认知偏差:如何识别与应对思维陷阱
  • 【AI】免费的代价?Google AI Studio 使用指南与 Cherry Studio + MCP 实战教程
  • 【tRPC-Go 框架】深度解析:特性、架构及与主流RPC框架对比
  • MCP概念和实践
  • ONNX预训练模型极速获取攻略:8大方案解决你的下载困扰
  • 3分钟让你的Qt应用颜值翻倍:10款专业QSS模板免费使用指南
  • 2025年螺旋板式冷凝器生产厂家榜单推荐:可拆式螺旋板式换热器/钛螺旋板式换热器/不锈钢螺旋板式换热器生产厂家精选 - 品牌推荐官
  • OpenVoice V2实战指南:从零开始打造你的专属语音助手
  • 使用格子玻尔兹曼方法(LBM)模拟液滴分裂的伪势模型Matlab程序
  • 【Go 语言】核心特性、基础语法及面试题
  • 温州建国医院正规专业吗?详情解读”温州建国医院什么样? - 速递信息
  • 线性自抗扰控制:包含线性跟踪微分器、扩张状态观测器及控制律的STM32F1 C代码与实践
  • AI智能体 - A2A协议
  • 能控制计算机桌面的多模态AI agent框架
  • Blender插件完全指南:从入门到精通的必备工具清单 [特殊字符]
  • 企业利润翻倍的秘密:为什么你的对手都在搭建AI agent
  • 3分钟免费拥有macOS精致鼠标指针:Windows和Linux完美适配指南
  • Matlab Simulink 基于自适应的永磁同步电机无位置传感器控制系统 以PMSM做为控制对像
  • 【计算机毕业设计案例】基于SpringBoot北京市公交管理系统的设计与实现基于JAVA的北京市公交管理系统(程序+文档+讲解+定制)
  • 构建可测试的代码:开发者的质量守护之道
  • Cellpose-SAM细胞分割工具:从入门到精通的全流程指南 [特殊字符]
  • GroundingDINO配置实战指南:5分钟掌握两大模型核心差异
  • 国自然科学基金本子拟解决关键问题与创新点,如何利用AI分别进行辅助?
  • OpenUSD工具链:usdview与命令行工具完全指南
  • 【python实用小脚本-324】耗时2小时→0人工|电商运营必学的价格监控自动化方案(建议收藏)
  • NocoDB容器化部署架构深度解析:从单机到云原生演进路径
  • 多场景 Shell 脚本实例,搞定系统 / 日志 / 数据库 / 容器
  • BasePopup:Android弹窗终极指南与高效解决方案
  • 快速生成应用:AI大模型与低代码的无缝融合之道