数据标准化
数据标准化将原始数据映射到均值为0、标准差为1的分布上(高斯分布/正态分布)。假设原始特征的均值为μ\muμ、标准差为σ\sigmaσ,数据标准化公式为
z=x−μσz = \frac{x - \mu}{\sigma}z=σx−μ
即每一变量值与其平均值之差除以该变量的标准差。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量的重要性程度是同等看待的。
