代价函数 and 梯度下降算法

2022/4/27 14:14:03

编程Tag： 函数算法梯度 alpha 我们 theta frac part 代价

本文主要是介绍代价函数 and 梯度下降算法，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

此系列笔记来源于

Coursera上吴恩达老师的机器学习课程

回归问题中，根据已给的数据集，拟合出一个线性的函数。

均方误差函数 Mean squared error

\(J(\theta_0, \theta_1) = \frac{1}{2m}\sum_{i=1}^{m}(y'-y_i)^2=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x_i)-y_i)^2\)

前面有个二分之一是为了计算机更好的计算梯度下降，因为求导后\(\frac12\)会被指数2消掉

我们假设拟合曲线为\(h_\theta(x) = \theta_1x\)，那么对于不同的\(\theta1\)我们都可以计算出其对应的\(J(\theta1)\)的值，那么便可以对\(J(\theta)\)作出相关函数，便可以求得我们所要的最优解。

可以用来最小化代价函数 J

假设代价函数 \(J(\theta_0,\theta_1)\)，并设置一个初始点

我们从初始点开始，不断进行计算：

\(\theta_j:=\theta_j-\alpha\frac{\part}{\part\theta_j}J(\theta_0, \theta_1)，j =0、1\)

最终也就到达了我们所要的代价函数最小值点

PS：

1、:=为赋值运算符，将右边的值赋给左边

2、在这里\(\theta_0\)和\(\theta_1\)为同步更新，即

\(①temp0:=\theta_0-\alpha\frac{\part}{\part\theta_0}J(\theta_0, \theta_1)\)

\(②temp1:=\theta_1-\alpha\frac{\part}{\part\theta_1}J(\theta_0, \theta_1)\)

\(③\theta_0:=temp0\)

\(④\theta_1:=temp1\)

②式和3式不能颠倒，这将导致我们在计算②式的偏导时会产生错误，从而得出错误的答案

3、\(\alpha\)是学习速率，它决定了我们在图中的每一步的size，而偏导\(\frac{\part}{\part\theta_1}J(\theta_0, \theta_1)\)则决定了我们的移动方向，另外每一步的起点不同，那么最后所到达的终点也可能会不同。

4、在计算中我们不需要去减小\(\alpha\)的值，因为随着梯度下降，我们的导数也会趋于零（当导数为0时，即得到了optimal minimum），随之我们的每次下降的步伐也将越来越小。

5、另外\(\alpha\)如果太小那么最终求解时间会过长，\(\alpha\)太大那么最终可能会使得函数值为无法converge，甚至diverge

这篇关于代价函数 and 梯度下降算法的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！