当前位置: 首页 > news >正文

样本特征数据标准化

样本特征数据的标准化(Feature Scaling 或 Standardization)是数据预处理的关键步骤之一,尤其在线性回归、逻辑回归、神经网络、支持向量机等依赖距离度量的算法中至关重要。
标准化可以通过多种方法实现,最常用的是 Z-Score 标准化归一化(Min-Max Scaling)
1. Z-Score 标准化 (Standardization)
Z-Score 标准化将数据转换为均值为 0、标准差为 1 的分布。它假设数据服从或近似服从正态分布。
公式:
Xnew=X−μσcap X sub n e w end-sub equals the fraction with numerator cap X minus mu and denominator sigma end-fraction
𝑋𝑛𝑒𝑤=𝑋−𝜇𝜎

其中:
  • Xcap X
    𝑋
    是原始特征值。
  • μmu
    𝜇
    (mu)是该特征的均值。
  • σsigma
    𝜎
    (sigma)是该特征的标准差。 
特点及适用场景: 
  • 特点:经过标准化后,数据的范围不再固定(理论上可以从负无穷大到正无穷大,但绝大部分落在 [-3, 3] 之间)。它保留了数据的原始分布形状。
  • 适用算法:非常适合依赖距离度量的算法,如 KNN、K-Means、以及所有基于梯度的优化算法(如线性回归、逻辑回归、神经网络)。
  • 对异常值敏感:均值和标准差都受异常值影响较大,因此标准化也受影响。 
2. 归一化 (Min-Max Scaling) 
归一化将数据缩放到一个固定的特定范围内,通常是
[0,1]open bracket 0 comma 1 close bracket
[0,1]
[-1,1]open bracket negative 1 comma 1 close bracket
[−1,1]
 
公式(缩放到 [0] 范围):
Xnew=X−XminXmax−Xmincap X sub n e w end-sub equals the fraction with numerator cap X minus cap X sub m i n end-sub and denominator cap X sub m a x end-sub minus cap X sub m i n end-sub end-fraction
𝑋𝑛𝑒𝑤=𝑋−𝑋𝑚𝑖𝑛𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛

其中: 
  • Xmincap X sub m i n end-sub
    𝑋𝑚𝑖𝑛
    是该特征的最小值。
  • Xmaxcap X sub m a x end-sub
    𝑋𝑚𝑎𝑥
    是该特征的最大值。 
特点及适用场景: 
  • 特点:将所有数据压缩到固定区间,消除了量纲(单位)的影响。
  • 适用算法:在神经网络中常用于将输入值缩放到激活函数的敏感区域(如 Sigmoid 函数的 [0] 范围)。也适用于需要明确范围的算法。
  • 对异常值非常敏感:数据的最大值和最小值会严重影响缩放结果。如果存在一个极端异常值,大部分数据将被压缩在一个很小的范围内。 
3. 何时使用标准化? 
以下是需要进行特征标准化的主要原因: 
  • 消除量纲影响:不同特征可能具有不同的单位和数量级(例如,房屋面积通常是几百平方米,而房间数量是个位数)。标准化使得所有特征在同一尺度上,避免数量级大的特征主导模型。
  • 加速模型收敛:在线性回归、逻辑回归和神经网络中使用梯度下降算法时,标准化后的数据能使损失函数的等高线更接近圆形,从而让优化器更快地找到最小值(收敛速度更快)。
  • 算法要求:某些算法(如 SVM、KNN)假设特征在相似的尺度上,否则具有较大方差的特征将主导结果。 
在 Python 中如何实现? 
使用 Scikit-learn 库可以非常方便地实现标准化和归一化:
在虚拟环境中安装库 
(.vpyenv)$ pip install scikit-learn
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import numpy as npdata = np.array([[100], [200], [300], [400], [1000]])# 1. Z-Score 标准化
scaler_z = StandardScaler()
data_standardized = scaler_z.fit_transform(data)
print("Standardized Data:\n", data_standardized)
# 结果的均值接近 0,标准差接近 1# 2. 归一化 (Min-Max Scaling)
scaler_mm = MinMaxScaler()
data_normalized = scaler_mm.fit_transform(data)
print("Normalized Data (0-1):\n", data_normalized)
# 结果范围在 [0, 1] 之间

 

 
http://www.jsqmd.com/news/36719/

相关文章:

  • Claude Code用户故事编写最佳实践指导手册
  • 2025年毛发检测排名怎么选择
  • 2025年权威的形象思维少儿训练机构口碑推荐榜
  • 隐藏性很高的npm恶意依赖包
  • 2025年权威的青少年组织领导力成长训练单位口碑排行
  • SRS(simple-rtmp-server) 三Linux环境下安装SRS流媒体服务器实现视频直播推流
  • 格亿燃气灶售后维修点——真诚服务到永远!
  • 2025年11月PDA品牌推荐:主流选择避坑指南及高性价比解决方案
  • 2025年轧辊数控车床品牌推荐排行榜
  • 莱普燃气灶维修全国售后服务点热线
  • 美菱空调维修全国售后服务点热线号码
  • 工控机:智能制造时代的核心引擎,从稳定运行到智能演进
  • 市场上出行网约车公司
  • 海尔智能马桶售后维修站丨全国400热线号码2025已更新
  • PG系列:PG数据库中分析操作系统IO是否正常
  • 2025年智能控制与计算科学国际学术会议(ICICCS 2025)
  • 【连续六届稳定出版检索,往届见刊后1个月左右完成EI检索】第七届机器人、智能控制与人工智能国际学术会议(RICAI 2025)
  • Vue nextTick 全景指南:一篇吃透 $nextTick 用法与底层达成
  • Intigriti Bug Bytes
  • 098_尚硅谷_经典案例九九乘法表
  • 基于MATLAB的光纤光传播特性仿真
  • 【多名IEEE Fellow,作为主讲嘉宾出席大会】第五届计算机科学、电子信息工程和智能控制技术国际会议(CEI 2025)
  • 差分进化(DE)与灰狼优化(GWO)结合的混合算法(DE-GWO)
  • 2025年广东软件开发外包公司权威推荐榜单:软件开发方案/软件开发测试/教育软件开发源头公司精选
  • 极限学习机(ELM)的原理、实现和应用
  • 安卓开发入门
  • ModelScope 模型一键上线?FunModel 帮你 5 分钟从零到生产
  • 记录WPF 在清单列表设置了UIACESS为true,没有签名的报错“从服务器返回了一个参照”
  • 新手在哪里找预防感冒类公众号排版?
  • 领嵌iLeadE-588网关实现设备联网实现远程控制-工业智能网关