当前位置: 首页 > news >正文

软件工程学习日志2025.11.12

一、基本概念回顾

信息论基础公式

信息熵:度量样本集合纯度的指标

H(D) = -Σ(p_k × log₂p_k)

信息增益:特征A对数据集D划分带来的信息提升

Gain(D,A) = H(D) - Σ(|Dᵛ|/|D| × H(Dᵛ))

信息增益率:解决信息增益对多值特征的偏好问题

Gain_ratio(D,A) = Gain(D,A) / H_A(D)

二、关键技术对比分析

  1. 划分准则优缺点对比

准则 优点 缺点 适用场景

信息增益 计算简单,直观易懂 对多值特征有偏好 特征取值较均匀时

信息增益率 减少多值特征偏好 可能倾向选择取值少的特征 特征取值数量差异大时

  1. 剪枝策略优劣分析

预剪枝(提前停止树生长):
• ✅ 训练效率高,模型简洁

• ❌ 可能因贪心而欠拟合

后剪枝(生成完整树后修剪):
• ✅ 泛化能力更强,决策更准确

• ❌ 计算开销大,训练时间长

三、算法终止条件总结

决策树停止生长的三种情况:

  1. 纯度达标:当前节点样本属于同一类别
  2. 特征耗尽:无剩余特征可用,或所有样本特征值相同
  3. 样本为空:当前节点无样本可划分

四、实战案例:贷款审批决策树构建

基于提供的贷款申请数据(15个样本),演示ID3算法完整流程:

数据特征分析

• 特征维度:年龄、工作、房产、信贷情况

• 目标变量:是否批准贷款(二分类)

关键计算步骤

  1. 基准熵计算:H(D) = 0.971

  2. 各特征信息增益:
    • 有自己的房子:0.420 ✓(最优)

    • 信贷情况:0.363

    • 有工作:0.324

    • 年龄:0.083

生成的决策树逻辑

根节点:有自己的房子?
├─ 是 → 直接批准(纯度100%)
└─ 否 → 次级判断:有工作?
├─ 是 → 批准贷款
└─ 否 → 三级判断:信贷情况
├─ 一般/好 → 拒绝
└─ 非常好 → 批准

五、核心洞察与学习心得

  1. 特征选择的重要性:房产状况成为首要判断标准,符合金融风控直觉
  2. 算法与实际业务的结合:决策树的可解释性在金融领域极具价值
  3. 过拟合与泛化的平衡:需要通过剪枝等技术保证模型实用性
http://www.jsqmd.com/news/38755/

相关文章:

  • [集训队互测 2025] 火花 做题记录
  • 返璞归真,因为自指,所以自洽
  • NLTK库用法示例:Python自然语言处理入门到实践 - 实践
  • 2025大桶/桶装/纯净/瓶装/灌装水设备推荐榜:青州市路得自动化五星领跑 四大品牌赋能水企高效生产
  • 2025履带式/机场/智能驱鸟机器人系统推荐榜:申昊科技以AI赋能,破解多场景鸟害难题
  • 2025室外/攀爬/绳网/公园/景区/户外游乐设施企业口碑榜:全场景覆盖 + 实力出圈,这4家企业成采购优选
  • 2025年艺考文化课优选机构:聚焦艺考文化课机构/艺考文化课培训山东艺考文化课机构/封闭集训与精准提分核心竞争力
  • 2025年邦顿商用空气能厂家新实力榜:聚焦邦顿商用变频/商用变频冷暖/商用变频热泵/模块化应用优势!
  • 2025密集型/智能/防潮防腐/多层抽屉式/切片蜡块柜推荐榜:北京中宝元五星领跑 高容量智能存储方案成实验室优选
  • 专题:2025AI时代的医疗保健业:应用与行业趋势研究报告|附130+份报告PDF、数据、可视化模板汇总下载
  • 团队作业2——需求规格说明书
  • 实用指南:Java优选算法——位运算
  • 英语_阅读_Postman_待读
  • CF1984F Reconstruction
  • 英语_句子摘抄
  • 详细介绍:python编程基础知识
  • [USACO18JAN] G/S 题解
  • 计算机网络 —— 交换机 —— 二层交换机 or 三层交换机
  • IDM超详细安装下载教程,一次安装免费使用 Internet Download Manager
  • P7912 [CSP-J 2021] 小熊的果篮
  • 完整教程:对于环形链表、环形链表 II、随机链表的复制题目的解析
  • 第六章蓝墨云班习题
  • [network] IPv4 vs. IPv6 address pool
  • [Network] subnet mask
  • flask: 用flask-cors解决跨域问题
  • Linux小课堂: 用户管理与权限控制机制详解 - 实践
  • 分享一个MySQL万能备份脚本
  • 实用指南:构建AI智能体:六十五、模型智能训练控制:早停机制在深度学习中的应用解析
  • 解码LVGL 布局与多界面编程
  • 【为美好CTF献上祝福】浅学花指令