admin 发布的文章

首先看一下标准化和归一化的公式:

归一化 :
$x'=\frac{x-min(x)}{max(x)-min(x)}$

标准化 :
$x'=\frac{x-x_{hat}}{s}$

其中$x_{hat}$为均值,s为均方差,又叫标准差,又叫方差的开方

数据中心化 :
是指:变量减去它的均值。

意义:
意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

归一化和标准化的区别:归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定,因区间放缩法是归一化的一种。标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。

常见的数据预处理方法:

  • 1.采样与过滤
  • 2.采数据合并
  • 3.采归一化
  • 4.采标准化
  • 5.采拆分
  • 6.采缺失值填充