归一化和标准化
首先看一下标准化和归一化的公式:
归一化 :
$x'=\frac{x-min(x)}{max(x)-min(x)}$
标准化 :
$x'=\frac{x-x_{hat}}{s}$
其中$x_{hat}$为均值,s为均方差,又叫标准差,又叫方差的开方
数据中心化 :
是指:变量减去它的均值。
意义:
意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
归一化和标准化的区别:归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定,因区间放缩法是归一化的一种。标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。