当前位置:   article > 正文

五、特征缩放和多项式回归

五、特征缩放和多项式回归

目录

一、为什么要使用特征缩放(Feature Scaling)

1.首先来看预测房价的例子

2.特征缩放前后效果对比

二、特征缩放方法

1.统一除以范围最大值

2.均值归一化(Mean Normalization)

3.Z-score标准化(Z-score Normalization)

4.一些可以接受/不接受的缩放范围

三、如何识别梯度下降是否收敛

四、如何选择一个合适的学习率

1.学习曲线(J(w,b)-迭代次数)

2.学习率选择技巧

3.特征缩放和学习率选择实验

(1)在具有多个特征的数据集上运行梯度下降,探索学习率alpha对梯度下降的影响

①多特征数据集

②导入数据集

③绘制每一个特征和结果(房价)的散点分布图

④多特征的梯度下降算法

⑤选用学习率为9.9*10^-7时,迭代10次

⑥选择较小的学习率9.0*10^-7

⑦继续缩小学习率,使用1.0*10^-7

(2)使用z-score标准化通过特征缩放提高梯度下降的性能

①z-score计算公式及各参数计算方法

②代码实现

③标准化过程及效果

④比较原始数据和标准化处理后的各特征值x

⑤用标准化处理后的数据重新执行梯度下降算法

⑥使用训练好的模型进行预测

⑦J(w,b)等值线图下观察标准化对梯度下降算法效果

4.总结

五、特征工程和多项式回归

1.特征工程

2.多项式回归(也是很重要的回归模型)

3.特征工程和多项式回归实验

(1)没有进行特征工程的线性回归模型

(2)使用梯度下降的方式去训练多项式回归模型

(3)使用三次多项式回归模型训练

(4)从另一个角度来考虑选择什么样的模型更好的拟合训练数据

(5)使用特征缩放对x,x^2,x^3进行处理以后的效果

(6)使用特征工程还可以对复杂场景进行函数建模

4.总结

六、本章小结


一、为什么要使用特征缩放(Feature Scaling)

目的:使梯度下降算法运行速度更快,效果更好

1.首先来看预测房价的例子

        x1表示房子面积(范围较大),x2表示卧室数量(范围较小)

        (1)如果初始时,w1设置为50,w2设置为0.1,那么初始计算的price为:100050

        (2)如果初始时,w1设置为0.1,w2设置为50,那么初始计算的price为:500(这个相对更合理)

        从上面可以看到,如果x1和x2两个特征差距太大,相应的w1和w2两个参数也会差距太大

        当x1范围大则w1相应的变化范围就会很小当x2范围小则w2相应的变化范围就会很大

2.特征缩放前后效果对比

        下图是x1、x2进行特征缩放前后的f(x1,x2)散点分布图代价函数J(w,b)的等高线图

        如果按原样训练数据。因为J(w,b)轮廓高而细,梯度下降可能会在结束前来回反弹了很长时间都没办法找到全局最小值的方法。在这种情况下,一个有用的要做的就是缩放特征。这意味着执行一些对训练数据进行变换,使x1的范围现在可以从0到1x2的取值范围也可以是0到1

        数据点看起来更像这样左下的散点图;你可能会注意到下面的图的比例现在相当和上面的不一样。关键是x1和x2现在都是可比较的,如果你运行梯度下降在这里找到一个成本函数,使用它重新缩放x1和x2变换后的数据,轮廓看起来会更像圆圈(右下),梯度下降法可以通过更直接的路径到全局最小值,缩放后更容易找到合适的w和b参数值


二、特征缩放方法

1.统一除以范围最大值

2.均值归一化(Mean Normalization)

        分子为x1-μ(均值)

        分母为范围最大值-范围最小值

        均值归一化的取值范围为-1~1

3.Z-score标准化(Z-score Normalization)

        计算公式为 本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签