当前位置: 首页 > news >正文

逻辑回归原理与案例分析

一、逻辑回归基本概念
逻辑回归:用于解决二分类问题的统计学习方法,虽然名字中有"回归",但实际上解决的是分类问题。
核心思想:根据给定的输入特征,通过逻辑函数(Sigmoid函数)计算出样本属于某个特定类别的概率。

二、逻辑回归数学原理

  1. 线性组合
    首先对输入特征进行线性组合:
    z = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ
  2. Sigmoid函数
    将线性组合的结果映射到[0,1]区间:
    σ(z) = 1 / (1 + e^(-z))
    函数特性:
    自变量:任意实数
    值域:[0, 1]
    图形:优美的S型曲线
  3. 概率解释
    P(y=1|X) = σ(z):给定特征X时,样本属于类别1的概率
    P(y=0|X) = 1 - σ(z):给定特征X时,样本属于类别0的概率
  4. 决策边界
    设置阈值(通常为0.5)进行最终分类:
    如果 P(y=1|X) ≥ 0.5,预测为类别1
    如果 P(y=1|X) < 0.5,预测为类别0

三、逻辑回归代码实现
多分类策略:一对多(One-vs-Rest)
def train(self, max_iterations=1000):
cost_histories = []
for label_index, unique_label in enumerate(self.unique_labels):
current_lables = (self.labels == unique_label).astype(float)
数值优化:使用梯度下降
result = minimize(
lambda current_theta: LogisticRegression.cost_function(data, labels, current_theta),
current_initial_theta,
method='CG',
jac=lambda current_theta: LogisticRegression.gradient_step(...)
)
成本函数:交叉熵损失
@staticmethod
def cost_function(data, labels, theta):
predictions = LogisticRegression.hypothesis(data, theta)
cost = -np.mean(
labels * np.log(predictions) +
(1 - labels) * np.log(1 - predictions)
)
return cost
预测逻辑:概率最大化
def predict(self, data):
prob = LogisticRegression.hypothesis(data_processed, self.theta.T)
max_prob_index = np.argmax(prob, axis=1)

四、实战案例 鸢尾花
数据可视化 绘制散点图展示数据分布
for iris_type in iris_types:
plt.scatter(data[x_axis][data['class']iris_type],
data[y_axis][data['class']
iris_type],
label=iris_type)
plt.show()
训练过程监控 绘制损失函数下降曲线
plt.plot(range(len(cost_histories[0])), cost_histories[0], label=labels[0])
plt.plot(range(len(cost_histories[1])), cost_histories[1], label=labels[1])
plt.plot(range(len(cost_histories[2])), cost_histories[2], label=labels[2])
plt.show()
决策边界可视化 生成网格坐标进行预测
for x_index, x in enumerate(X):
for y_index, y in enumerate(Y):
data = np.array([[x, y]])
prediction = logistic_regression.predict(data)[0][0]
绘制决策边界
plt.contour(X, Y, Z_SETOSA)
plt.contour(X, Y, Z_VERSICOLOR)
plt.contour(X, Y, Z_VIRGINICA)
plt.show()

五、进阶案例:微芯片测试数据
非线性分类问题 数据分布可视化
for validity in validities:
plt.scatter(
data[x_axis][data['validity'] == validity],
data[y_axis][data['validity'] == validity],
label=validity
)
特征工程
logistic_regression = LogisticRegression(x_train, y_train, polynomial_degree, sinusoid_degree)
生成非线性决策边界
for x_index, x in enumerate(X):
for y_index, y in enumerate(Y):
data = np.array([[x, y]])
Z[x_index][y_index] = logistic_regression.predict(data)[0][0]

六、学习总结

  1. 多分类处理:掌握了一对多策略实现多分类问题
  2. 优化算法:理解了梯度下降在逻辑回归中的应用
  3. 模型评估:通过损失函数曲线监控训练过程
  4. 可视化技巧:决策边界绘制帮助理解模型分类原理
http://www.jsqmd.com/news/38855/

相关文章:

  • 找唯一特征去重转移DP——CF1210F2 Marek and Matching
  • UEFI Boot Manager
  • 25年11月计数题做题记录
  • 固体废物资源化处理简答题与论述题
  • noip6 多校1
  • CCPC2025哈尔滨站-H. 匹配
  • 通过开发环境部署工具安装qt相关c++开发环境
  • 第23天(简单题中等题 二分查找)
  • Cinema4D 2025保姆级下载安装教程|含安装包获取+新手入门指南
  • 2014 吉林省赛题解 | CCUT应用OJ题解——F[X] + X = N
  • 洛谷 P4859 已经没有什么好害怕的了 题解(DP,二项式反演)
  • 01321:棋盘问题
  • C 变量的作用域与生存周期
  • 模式识别与机器学习课程笔记(11):深度学习 - 详解
  • 05.创建型 - 简单工厂模式(Simple Factory Pattern)
  • RabbitMQ延迟队列rabbitmq_delayed_message_exchange
  • HaluMem:揭示当前AI记忆系统的系统性缺陷,系统失效率超50%
  • 团队作业2-需求规格说明书
  • Mac安装Visual Studio 2019.dmg详细步骤(附图解,小白也能懂,附安装包)
  • 20251112 正睿
  • 如何根据色带计算电阻阻值
  • 25.11.12 差分约束算法
  • 11/12
  • Linux C/C++ 学习日记(27):KCP协议(三):源码分析与使用示例 - 实践
  • 解决Cursor编辑器无法通过include path识别C++头文件的问题
  • 麒麟桌面系统2503安装openjdk21
  • 重组蛋白基础与技术概述
  • Day36(6)-F:\硕士阶段\Java\课程代码\后端\web-ai-code\web-ai-project01
  • E. Journey
  • Dynamics 365 Field Service跨站脚本欺骗漏洞分析