当前位置：首页 > news >正文

XGBoost-原理推导（中）：从目标函数到最优切分点

news 2026/7/26 21:21:03

1. 目标函数：XGBoost的核心优化逻辑

XGBoost之所以能在各类机器学习竞赛中屡获佳绩，关键在于它对目标函数的精妙设计。这个目标函数由两部分组成：衡量预测偏差的损失函数和控制模型复杂度的正则项。就像考试既要追求高分（降低偏差）又要避免熬夜复习（控制复杂度），两者需要平衡。

具体来看，对于包含n个样本的数据集，第t轮迭代时的目标函数可以表示为：

Obj(t) = ∑[L(y_i, ŷ_i^(t-1) + f_t(x_i))] + Ω(f_t)

其中L是损失函数（如均方误差），ŷ_i^(t-1)是前t-1轮的预测结果，f_t是本轮要学习的树模型，Ω(f_t)则是正则化项。

这里有个精妙的处理：通过泰勒展开将目标函数近似为二阶可导形式。假设我们用平方损失函数，其一阶导g_i = 2(ŷ_i^(t-1) - y_i)，二阶导h_i = 2。这意味着XGBoost实际上是在用牛顿法进行优化，比传统梯度下降收敛更快。

2. 决策树的正则化艺术

决策树作为基学习器时，XGBoost的正则化设计尤为精巧。不同于简单地限制树深度，它从两个维度控制复杂度：

叶子节点数量T：相当于控制模型宽度
叶子权重w的L2范数：防止单个节点过度影响预测

具体正则项表达式为：

Ω(f_t) = γT + 0.5λ∑(w_j^2)

γ和λ都是可调超参数。实践中我发现，设置γ=0.1，λ=1通常能取得不错的效果，但具体值需要交叉验证。

这种设计带来一个好处：算法会自动倾向于选择分裂后增益足够大的节点。我曾在客户流失预测项目中测试过，当γ设为0.3时，模型平均深度比默认值减少了2层，但AUC仅下降0.005，显著提升了线上推理速度。

3. 结构分数：连接树结构与模型效果

经过一系列推导，我们可以得到简化后的目标函数：

Obj(t) = -0.5∑(G_j^2/(H_j+λ)) + γT

其中G_j和H_j分别是叶子j上所有样本的一阶导和二阶导之和。这个结果非常有意思——树的结构好坏可以直接用数值量化评估。

在实际编码时，我们会预先计算每个样本的g_i和h_i。以Python为例：

def get_gradients(y_true, y_pred): # 以平方损失为例 return 2*(y_pred - y_true), np.full_like(y_true, 2)

4. 寻找最优切分点的两种策略

4.1 精确贪心算法

这是最直接的分裂方法，步骤如下：

对当前节点所有样本按特征值排序
遍历所有可能的分裂点

计算分裂后的增益：

gain = 0.5*[GL^2/(HL+λ) + GR^2/(HR+λ) - (GL+GR)^2/(HL+HR+λ)] - γ

选择增益最大的分裂方案

我在实践中发现几个优化点：

对连续特征可以先做分桶处理
对类别型特征采用直方图算法
设置min_child_weight参数防止过拟合

4.2 近似算法

当数据量超过内存大小时，精确算法就不适用了。XGBoost提供了两种近似策略：

Global模式：在建树前全局生成候选切分点
Local模式：每次分裂时重新生成候选点

在开源实现中，可以通过设置tree_method=approx来启用。有个经验之谈：当特征维度超过100时，使用max_bin=64能在精度和速度间取得不错平衡。

5. 加权分位数与稀疏感知

XGBoost有两个容易被忽视但极其重要的特性：

加权分位数草图：用二阶导数h_i作为样本权重来选择候选分裂点。这意味着：

对预测不确定的样本（h_i小）会被赋予更低权重
算法更关注预测确定性高的区域

稀疏感知算法：自动学习缺失值的最佳处理方向。在医疗数据等缺失值常见的场景特别有用。实现上是通过：

# 在节点分裂时 if feature_missing: default_direction = get_best_direction()

我曾经处理过一个金融风控数据集，其中30%的特征存在缺失。启用enable_sparse=True后，模型训练时间缩短了40%，且KS指标提升了5%。

查看全文

http://www.jsqmd.com/news/620077/

2026成都别墅装修口碑王炸榜！TOP10实力公司全解析，从设计到落地一篇搞定 - 推荐官

2026评测：波光跳泉领域这些企业表现亮眼，市场评价高的波光跳泉生产厂家坤湛喷泉专注行业多年经验，口碑良好 - 品牌推荐师

浏览器自动化六大技术路线深度对比：从模拟点击到 Chrome 扩展注入既

海外项目实战：用uniapp搞定谷歌登录，绕过网络限制的纯前端方案（附完整代码）

生物显微镜设计避坑指南：Zemax仿真中那些容易忽略的‘可制造性’细节

Windows下PostgreSQL 14安装失败？手把手教你解决‘Problem running post-install step‘错误

2026年4月海口美兰半挂租赁买卖，文昌半挂技术实力与市场口碑领航者 - 品牌推荐师

批量音频音量调整工具使用说明：固定增减分贝与目标响度两种模式怎么选

uniapp消息推送权限处理指南：如何优雅地引导用户开启通知权限

深入解读ATPG Pattern类型：除了Basic Scan，Clock PO和RAM Sequential模式怎么用？

从金牛奖到数据实验室：一家头部公募如何在数智化深水区重构投研生产力

MindSpore 环境配置完全指南雀

别再为3D模型发愁了！用HelixToolkit.Wpf在WPF里加载并操控模型（附完整代码）

2026成都全包装修公司实力红黑榜：深扒10家高口碑品牌，附真实案例与报价陷阱解析 - 推荐官

【仅限头部AI实验室内部流通】：LLM训练流水线版本控制Checklist v2.1（含SHA-3哈希校验模板）

Detectron2实战：从零构建自定义目标检测模型的完整指南

NumPy怎么删去单维度_np.squeeze()移除shape中长度为1的冗余轴

怎样跨库跨表导出JSON数据_结构与数据分离提取

TI IWR1843+DCA1000数据采集实战：手把手教你用Matlab调用LUA脚本配置mmWave Studio参数

【模拟IC】从指标到参数：二级运放GBW与相位裕度的设计实战

USB运动控制五轴雕刻机系统完全开源资料：PCB生产支持，多版本C++源码，五轴联动与RTCP...

计算机毕业设计：Python智慧天气数据采集与可视化系统 Django框架线性回归数据分析大数据机器学习大模型气象数据（建议收藏）✅

SkyWalking Web UI 实战指南：从入门到精通

Oracle归档日志爆满急救指南

如何解决ORA-28040没有匹配的验证协议_sqlnet.ora版本兼容设置

DDR5内存实战：如何优化读操作性能（附BL32模式配置指南）

3分钟掌握M3U8视频下载：N_m3u8DL-CLI-SimpleG终极指南

别再傻傻分不清了！Linux下用keytool、openssl、gskcmd查看6种证书（.jks/.kdb/.crt/.pem/.p12/.cer）的保姆级命令手册