在处理多维特征问题的时候,需要保证特征具有相近的尺度,这有助于梯度下降算法更快的收敛。
以预测房屋价格为例,假设有两个特征,房屋的尺寸和房屋的数量,尺寸的值为 0-
2000 平方英尺,而房间数量的值则是 0-5,以两个参数分别为横纵坐标,绘制代价函数的等
高线图能,看出图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛。
\[\frac{x-\min}{\max-\min}\]
缺点:当min,max为离群值或异常值时,缩放后数据分布不均匀
\[x-\min\]
将所有数据缩放至0两边, 这样做的好处是方便01标准化,而且像sigmoid的导数也是以0为中心
\[\frac{x-mean}{var}\]
优点: 有时候, 如NN模型, 假设数据服从0 1 分布, 所以我们需要对数据标准化, 图像取均值也是标准化的手段之一, 不过因为图像的方差都差不多, 所以一般只减去均值
标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响,标准化也可以消除量纲
原文:https://www.cnblogs.com/zhouyc/p/12505525.html