网站首页 > 技术教程正文

机器学习(6)手推线性回归模型(梯度下降法)

goqiw 2024-10-16 11:26:15 技术教程 27 ℃ 0 评论

今天我们给出梯度下降（Gradient Descent）的推导示例，通过一个简单的例子让我们理解GD的流程和本质。

其实梯度下降是比较怂的解决方案，实在是在数学方法没辙了，那我就用物理的方法：按照一定的步长遍历参数空间，为了加快搜索，每次都沿下降最快的方向寻找，直到找到最佳的参数解；当然这也是一种直觉上的解决方案，就跟在游戏中搜索地图一样，不停去尝试。

这个方法的优缺点也是一目了然的：

相对于矩阵求逆，梯度下降理解简单，计算也简单；

其缺点是迭代较慢，有可能陷入局部最优。

梯度下降的公式推导和示例如下：

在如上的示例中，我们已知y = 2*x + 3的4个样本，GD的学习率取0.1，示例中给出了前两步的计算推导，供参考。

程序计算的迭代数据如下所示，跟手推的一样：

GD对学习率比较敏感，取值过小，迭代极慢；取值过大，可能跑过了，震荡较大，甚至无法收敛。

业界的说法，一般学习率取0.01比较合适。

如下三张图给出了取不同学习率下w，b，J的收敛曲线。

（如果觉得文章不错，请点在看支持，谢谢！）