当前位置: 首页 > news >正文

【风控】逻辑回归算法

一、逻辑回归算法原理与公式

逻辑回归是风控领域最核心的信用评分与违约预测算法之一,它本质上是一种广义线性模型,用于预测二分类问题(如用户违约与否)。相比普通线性回归,逻辑回归能够保证预测结果落在[0,1][0,1][0,1]区间,适合概率预测。

1.1 线性回归与逻辑回归关系

普通线性回归模型为:y=β0+β1x1+⋯+βnxn+ϵ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n + \epsilony=β0+β1x1++βnxn+ϵ
但若直接用线性回归预测违约概率,输出yyy可能超过[0,1][0,1][0,1]范围,这在概率预测中不合理。因此引入Sigmoid函数(Logistic函数)将线性组合映射到[0,1][0,1][0,1]p=P(Y=1∣X)=σ(z)=11+e−z,z=β0+∑i=1nβixi p = P(Y=1|X) = \sigma(z) = \frac{1}{1 + e^{-z}}, \quad z = \beta_0 + \sum_{i=1}^{n} \beta_i x_ip=P(Y=1∣X)=σ(z)=1+ez1,z=β0+i=1nβixi
其中:

  • ppp为正类(如违约)的概率
  • β0\beta_0β0为截距,βi\beta_iβi为特征权重
  • σ(z)\sigma(z)σ(z)为 Sigmoid 函数

1.2 对数几率(Log-Odds)形式

逻辑回归的核心思想是建模事件发生的对数几率logit(p)=ln⁡p1−p=β0+∑i=1nβixi \text{logit}(p) = \ln\frac{p}{1-p} = \beta_0 + \sum_{i=1}^{n} \beta_i x_ilogit(p)=ln1pp=β0+i=1nβixi

  • 对数几率将概率p∈(0,1)p \in (0,1)p(0,1)映射到实数范围(−∞,+∞)(-\infty, +\infty)(,+)
  • 线性关系便于解释和计算特征权重

1.3 损失函数与训练

逻辑回归采用最大似然估计MLEMLEMLE训练模型。对于样本集(x(i),y(i))i=1m{(x^{(i)}, y^{(i)})}_{i=1}^{m}(x(i),y(i))i=1m,似然函数为:L(β)=∏i=1mpiy(i)(1−pi)1−y(i) L(\beta) = \prod_{i=1}^{m} p_i^{y^{(i)}} (1-p_i)^{1-y^{(i)}}L(β)=i=1mpiy(i)(1pi)1y(i)
取对数得到对数似然:ℓ(β)=∑i=1m[y(i)ln⁡pi+(1−y(i))ln⁡(1−pi)] \ell(\beta) = \sum_{i=1}^{m} \left[ y^{(i)} \ln p_i + (1-y^{(i)}) \ln (1-p_i) \right](β)=i=1m[y(i)lnpi+(1y(i))ln(1pi)]
训练目标是最大化对数似然(或最小化负对数似然):β^=arg⁡max⁡βℓ(β) \hat{\beta} = \arg \max_{\beta} \ell(\beta)β^=argβmax(β)

二、逻辑回归的常用变形

在风控实践中,为增强模型性能和解释性,逻辑回归常做一些变形:

  1. 标准化/归一化

    • 对数值型特征进行标准化(z-score)或归一化,保证梯度下降收敛快速
  2. WOE(Weight of Evidence)编码

    • 类别变量分箱后转换成连续数值,使逻辑回归系数可直接解释
    • WOE 与违约率之间通常呈线性关系,满足逻辑回归假设
  3. 正则化(L1/L2)

    • L1(Lasso)用于特征选择,去掉无用变量
    • L2(Ridge)用于防止过拟合,提高模型稳定性
  4. 交互项和多项式扩展

    • 对特征组合或非线性关系建模
  5. 分段逻辑回归

    • 针对不同人群或不同产品建模,实现分层风险管理

三、风控场景下逻辑回归的使用流程

风控中逻辑回归模型主要用于信用评分卡(Credit Scoring)、逾期预测、欺诈识别等。流程可以分为以下几个阶段:

3.1 数据获取与处理

  1. 数据来源

    • 内部:交易记录、借款信息、账户信息
    • 外部:征信机构、公开金融数据
  2. 数据清洗

    • 异常值处理(如负债为负或异常高)
    • 缺失值填充(均值/中位数/插值/类别填充)
    • 重复数据剔除
  3. 标签构建

    • 二分类标签:如 0 = 正常还款,1 = 逾期 30 天以上
    • 根据业务规则确定观察期

3.2 特征处理

  1. 变量分箱(Binning)

    • 数值特征:等频、等宽或决策树分箱
    • 类别特征:按类别或合并低频类别
  2. WOE转换

    • 对每个箱计算:WOEi=ln⁡Goodi/Total GoodBadi/Total Bad \text{WOE}_i = \ln \frac{\text{Good}_i / \text{Total Good}}{\text{Bad}_i / \text{Total Bad}}WOEi=lnBadi/Total BadGoodi/Total Good
    • 线性化非线性关系,保证逻辑回归系数解释性
  3. IV(Information Value)评估特征

    • 衡量特征预测能力:IV=∑i(Goodi/Total Good−Badi/Total Bad)×WOEi IV = \sum_{i} (\text{Good}_i / \text{Total Good} - \text{Bad}_i / \text{Total Bad}) \times \text{WOE}_iIV=i(Goodi/Total GoodBadi/Total Bad)×WOEi
    • 一般 IV > 0.1 认为有预测价值

3.3 逻辑回归训练

  1. 划分训练集与测试集

    • 比例常用 7:3 或 8:2,保证样本平衡
  2. 模型拟合

    • 使用 Pythonsklearn.linear_model.LogisticRegression或 R 的glm
    • 设置正则化、迭代次数等参数
  3. 性能评估

    • AUC(ROC曲线)
    • KS值(风控特有指标)
    • 混淆矩阵(精度、召回率、F1-score)
  4. 系数解释

    • 正系数:特征值增加 → 违约概率增加
    • 负系数:特征值增加 → 违约概率降低

3.4 模型部署与应用

  1. 信用评分卡生成

    • 将逻辑回归输出概率ppp转换成评分:Score=Offset+Factor⋅ln⁡1−pp \text{Score} = \text{Offset} + \text{Factor} \cdot \ln\frac{1-p}{p}Score=Offset+Factorlnp1p
    • 通常设定“好客户分数高,坏客户分数低”,如 300-850 分制
  2. 实时风控决策

    • 线上审批:根据用户评分自动决策通过/拒绝
    • 额度管理:评分高 → 可授信额度高
  3. 模型监控

    • 数据漂移检测
    • 模型稳定性分析(Population Stability Index, PSI)
    • 定期再训练

四、风控逻辑回归案例流程示意

原始数据 └─> 数据清洗 (异常值, 缺失值) └─> 特征构建 (分箱, WOE, IV) └─> 特征筛选 └─> 逻辑回归训练 (最大似然估计) └─> 模型评估 (AUC, KS, 混淆矩阵) └─> 评分卡生成 └─> 线上审批 / 风险监控

五、风控逻辑回归的专业实践要点

  1. 线性假设验证

    • WOE转换后应保证每个特征与 logit 关系近似线性
  2. 类别变量分箱注意样本量

    • 小样本分箱会导致模型不稳定
  3. 多重共线性检查

    • 特征之间相关性过高会导致系数不稳定
    • 可用 VIF(Variance Inflation Factor)检查
  4. 偏斜样本处理

    • 逾期事件通常占比低,可用欠采样、过采样或加权训练
  5. 模型可解释性

    • 金融监管要求可解释性,逻辑回归是首选

六、总结

  • 逻辑回归:风控中核心二分类模型,输出概率,便于转化成评分卡
  • 关键公式:Sigmoid 函数 + 对数几率 + 最大似然估计
  • 风控实战流程:数据清洗 → 特征构建(分箱+WOE+IV)→ 模型训练 → 评估 → 评分卡生成 → 决策应用
  • 实践要点:特征线性化、类别处理、共线性检查、样本偏斜处理、模型可解释性

逻辑回归在风控中被广泛采用,主要原因是可解释性强、模型稳定、易于与评分卡结合,同时也可通过正则化和特征工程提升预测能力。

http://www.jsqmd.com/news/249284/

相关文章:

  • 导师推荐!8款AI论文软件测评:研究生开题报告必备工具
  • 【收藏】大模型从入门到实战:程序员必学的AI技能,抓住技术红利就现在
  • 基于Django的天虹商场管理系统设计与实现
  • 基于Django的鲜花预订购买管理系统设计与实现
  • 收藏!程序员转型难如蜀道?4大核心症结拆解+突破方向(附大模型时代适配指南)
  • 收藏!六模块Prompt结构精讲:让大模型精准听话的系统化方案
  • Formizee:把表单数据牢牢握在手里的开源神器
  • ‌当AI能自己写测试、执行、分析、报告,人类该做什么?
  • PVE添加ssd硬盘默认新建pool,处理
  • 基于springboot的毕业生招聘职位推荐系统
  • 【计算机毕业设计案例】基于SpringBoot的药店商品管理、库存管理、销售管理、采购管理管理系统设计与实现基于SpringBoot的药店管理系统设计与实现(程序+文档+讲解+定制)
  • 告别查重 + AIGC 双重警报!宏智树 AI 教你给论文注入人工原创灵魂
  • ‌35岁测试人转型指南:AI时代,你的核心竞争力是什么?
  • 京东价格API:历史价格趋势分析与定价参考技术实现
  • 知从木牛MCAL配置功能介绍
  • 市场份额超三成,志凌海纳 SmartX 连续 11 个季度领跑超融合软件中国市场
  • Java毕设项目推荐-基于Springboot实现药店管理系统基于SpringBoot的药店管理系统设计与实现【附源码+文档,调试定制服务】
  • 软件测试面试题小结(一)
  • ‌2026年,测试工程师会消失吗?
  • pve在迁移机器后更换vmbr物理网卡配置后导致默认虚拟网卡绑定到原始物理网卡下
  • Vercel 重磅发布 agent-browser:AI Agent 浏览器自动化的新纪元来了
  • 人工智能下游应用端产业链梳理与投资逻辑分析【20260115】
  • python+Java的网盘程序升级版。无感知备份文档,保护数据资产利器。
  • 人工智能-AI下游应用端核心赛道(教育/医疗/金融)个股对比表【20260115】
  • 红外图像水管管道破裂漏水检测数据集VOC+YOLO格式93张1类别
  • sward快速上手教程,从安装到入门
  • 无人机航拍黑匣子目标检测数据集_91张高清图像_907个精确标注_适用于计算机视觉模型训练与评估
  • 演示开挂!宏智树 AI AIPPT 功能让学术办公 PPT 一键封神
  • Python深拷贝与浅拷贝数据讲解:理解对象复制的核心机制
  • 科普课堂|宏智树 AI:手把手带教,毕业论文写作通关秘籍