当前位置：首页 > news >正文

【风控】逻辑回归算法

news 2026/3/27 8:26:35

一、逻辑回归算法原理与公式

逻辑回归是风控领域最核心的信用评分与违约预测算法之一，它本质上是一种广义线性模型，用于预测二分类问题（如用户违约与否）。相比普通线性回归，逻辑回归能够保证预测结果落在[0,1][0,1][0,1]区间，适合概率预测。

1.1 线性回归与逻辑回归关系

普通线性回归模型为：y=β0+β1x1+⋯+βnxn+ϵ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n + \epsilony=β0+β1x1+⋯+βnxn+ϵ
但若直接用线性回归预测违约概率，输出yyy可能超过[0,1][0,1][0,1]范围，这在概率预测中不合理。因此引入Sigmoid函数（Logistic函数）将线性组合映射到[0,1][0,1][0,1]：p=P(Y=1∣X)=σ(z)=11+e−z,z=β0+∑i=1nβixi p = P(Y=1|X) = \sigma(z) = \frac{1}{1 + e^{-z}}, \quad z = \beta_0 + \sum_{i=1}^{n} \beta_i x_ip=P(Y=1∣X)=σ(z)=1+e−z1,z=β0+i=1∑nβixi
其中：

ppp为正类（如违约）的概率
β0\beta_0β0为截距，βi\beta_iβi为特征权重
σ(z)\sigma(z)σ(z)为 Sigmoid 函数

1.2 对数几率（Log-Odds）形式

逻辑回归的核心思想是建模事件发生的对数几率：logit(p)=ln⁡p1−p=β0+∑i=1nβixi \text{logit}(p) = \ln\frac{p}{1-p} = \beta_0 + \sum_{i=1}^{n} \beta_i x_ilogit(p)=ln1−pp=β0+i=1∑nβixi

对数几率将概率p∈(0,1)p \in (0,1)p∈(0,1)映射到实数范围(−∞,+∞)(-\infty, +\infty)(−∞,+∞)
线性关系便于解释和计算特征权重

1.3 损失函数与训练

逻辑回归采用最大似然估计MLEMLEMLE训练模型。对于样本集(x(i),y(i))i=1m{(x^{(i)}, y^{(i)})}_{i=1}^{m}(x(i),y(i))i=1m，似然函数为：L(β)=∏i=1mpiy(i)(1−pi)1−y(i) L(\beta) = \prod_{i=1}^{m} p_i^{y^{(i)}} (1-p_i)^{1-y^{(i)}}L(β)=i=1∏mpiy(i)(1−pi)1−y(i)
取对数得到对数似然：ℓ(β)=∑i=1m[y(i)ln⁡pi+(1−y(i))ln⁡(1−pi)] \ell(\beta) = \sum_{i=1}^{m} \left[ y^{(i)} \ln p_i + (1-y^{(i)}) \ln (1-p_i) \right]ℓ(β)=i=1∑m[y(i)lnpi+(1−y(i))ln(1−pi)]
训练目标是最大化对数似然（或最小化负对数似然）：β^=arg⁡max⁡βℓ(β) \hat{\beta} = \arg \max_{\beta} \ell(\beta)β^=argβmaxℓ(β)

二、逻辑回归的常用变形

在风控实践中，为增强模型性能和解释性，逻辑回归常做一些变形：

标准化/归一化
- 对数值型特征进行标准化（z-score）或归一化，保证梯度下降收敛快速
WOE（Weight of Evidence）编码
- 类别变量分箱后转换成连续数值，使逻辑回归系数可直接解释
- WOE 与违约率之间通常呈线性关系，满足逻辑回归假设
正则化（L1/L2）
- L1（Lasso）用于特征选择，去掉无用变量
- L2（Ridge）用于防止过拟合，提高模型稳定性
交互项和多项式扩展
- 对特征组合或非线性关系建模
分段逻辑回归
- 针对不同人群或不同产品建模，实现分层风险管理

三、风控场景下逻辑回归的使用流程

风控中逻辑回归模型主要用于信用评分卡（Credit Scoring）、逾期预测、欺诈识别等。流程可以分为以下几个阶段：

3.1 数据获取与处理

数据来源
- 内部：交易记录、借款信息、账户信息
- 外部：征信机构、公开金融数据
数据清洗
- 异常值处理（如负债为负或异常高）
- 缺失值填充（均值/中位数/插值/类别填充）
- 重复数据剔除
标签构建
- 二分类标签：如 0 = 正常还款，1 = 逾期 30 天以上
- 根据业务规则确定观察期

3.2 特征处理

变量分箱（Binning）
- 数值特征：等频、等宽或决策树分箱
- 类别特征：按类别或合并低频类别
WOE转换
- 对每个箱计算：WOEi=ln⁡Goodi/Total GoodBadi/Total Bad \text{WOE}_i = \ln \frac{\text{Good}_i / \text{Total Good}}{\text{Bad}_i / \text{Total Bad}}WOEi=lnBadi/Total BadGoodi/Total Good
- 线性化非线性关系，保证逻辑回归系数解释性
IV（Information Value）评估特征
- 衡量特征预测能力：IV=∑i(Goodi/Total Good−Badi/Total Bad)×WOEi IV = \sum_{i} (\text{Good}_i / \text{Total Good} - \text{Bad}_i / \text{Total Bad}) \times \text{WOE}_iIV=i∑(Goodi/Total Good−Badi/Total Bad)×WOEi
- 一般 IV > 0.1 认为有预测价值

3.3 逻辑回归训练

划分训练集与测试集
- 比例常用 7:3 或 8:2，保证样本平衡
模型拟合
- 使用 Pythonsklearn.linear_model.LogisticRegression或 R 的glm
- 设置正则化、迭代次数等参数
性能评估
- AUC（ROC曲线）
- KS值（风控特有指标）
- 混淆矩阵（精度、召回率、F1-score）
系数解释
- 正系数：特征值增加 → 违约概率增加
- 负系数：特征值增加 → 违约概率降低

3.4 模型部署与应用

信用评分卡生成
- 将逻辑回归输出概率ppp转换成评分：Score=Offset+Factor⋅ln⁡1−pp \text{Score} = \text{Offset} + \text{Factor} \cdot \ln\frac{1-p}{p}Score=Offset+Factor⋅lnp1−p
- 通常设定“好客户分数高，坏客户分数低”，如 300-850 分制
实时风控决策
- 线上审批：根据用户评分自动决策通过/拒绝
- 额度管理：评分高 → 可授信额度高
模型监控
- 数据漂移检测
- 模型稳定性分析（Population Stability Index, PSI）
- 定期再训练

四、风控逻辑回归案例流程示意

原始数据 └─> 数据清洗 (异常值, 缺失值) └─> 特征构建 (分箱, WOE, IV) └─> 特征筛选 └─> 逻辑回归训练 (最大似然估计) └─> 模型评估 (AUC, KS, 混淆矩阵) └─> 评分卡生成 └─> 线上审批 / 风险监控

五、风控逻辑回归的专业实践要点

线性假设验证
- WOE转换后应保证每个特征与 logit 关系近似线性
类别变量分箱注意样本量
- 小样本分箱会导致模型不稳定
多重共线性检查
- 特征之间相关性过高会导致系数不稳定
- 可用 VIF（Variance Inflation Factor）检查
偏斜样本处理
- 逾期事件通常占比低，可用欠采样、过采样或加权训练
模型可解释性
- 金融监管要求可解释性，逻辑回归是首选

六、总结

逻辑回归：风控中核心二分类模型，输出概率，便于转化成评分卡
关键公式：Sigmoid 函数 + 对数几率 + 最大似然估计
风控实战流程：数据清洗 → 特征构建（分箱+WOE+IV）→ 模型训练 → 评估 → 评分卡生成 → 决策应用
实践要点：特征线性化、类别处理、共线性检查、样本偏斜处理、模型可解释性

逻辑回归在风控中被广泛采用，主要原因是可解释性强、模型稳定、易于与评分卡结合，同时也可通过正则化和特征工程提升预测能力。

查看全文

http://www.jsqmd.com/news/249284/

导师推荐！8款AI论文软件测评：研究生开题报告必备工具

【收藏】大模型从入门到实战：程序员必学的AI技能，抓住技术红利就现在

基于Django的天虹商场管理系统设计与实现

基于Django的鲜花预订购买管理系统设计与实现

收藏！程序员转型难如蜀道？4大核心症结拆解+突破方向（附大模型时代适配指南）

收藏！六模块Prompt结构精讲：让大模型精准听话的系统化方案

Formizee：把表单数据牢牢握在手里的开源神器

‌当AI能自己写测试、执行、分析、报告，人类该做什么？

PVE添加ssd硬盘默认新建pool，处理

基于springboot的毕业生招聘职位推荐系统

【计算机毕业设计案例】基于SpringBoot的药店商品管理、库存管理、销售管理、采购管理管理系统设计与实现基于SpringBoot的药店管理系统设计与实现(程序+文档+讲解+定制)

告别查重 + AIGC 双重警报！宏智树 AI 教你给论文注入人工原创灵魂

‌35岁测试人转型指南：AI时代，你的核心竞争力是什么？

京东价格API：历史价格趋势分析与定价参考技术实现

知从木牛MCAL配置功能介绍

市场份额超三成，志凌海纳 SmartX 连续 11 个季度领跑超融合软件中国市场

软件测试面试题小结（一）

‌2026年，测试工程师会消失吗？

pve在迁移机器后更换vmbr物理网卡配置后导致默认虚拟网卡绑定到原始物理网卡下

Vercel 重磅发布 agent-browser：AI Agent 浏览器自动化的新纪元来了

人工智能下游应用端产业链梳理与投资逻辑分析【20260115】

python+Java的网盘程序升级版。无感知备份文档，保护数据资产利器。

人工智能-AI下游应用端核心赛道（教育/医疗/金融）个股对比表【20260115】

红外图像水管管道破裂漏水检测数据集VOC+YOLO格式93张1类别

sward快速上手教程，从安装到入门

无人机航拍黑匣子目标检测数据集_91张高清图像_907个精确标注_适用于计算机视觉模型训练与评估

演示开挂！宏智树 AI AIPPT 功能让学术办公 PPT 一键封神

Python深拷贝与浅拷贝数据讲解：理解对象复制的核心机制

科普课堂｜宏智树 AI：手把手带教，毕业论文写作通关秘籍