不是一个机器学习算法
是一种基于搜索的最优化算法
作用:最小化一个损失函数

这个二维平面与前面提到的所有二维平面不同。注意坐标系是什么。

在直线方程中,导数代表斜率
在曲线方程中,导数代表切线斜率
在梯度下降法中,导数代表theta单位变化时,J相应的变化
导数可以代表方向,对应J增大的方向
在梯度下降法中,theta应该向导数的负方向移动
在多维函数中,要对各个方向的分量分别求导,最终得到的方向就是梯度。



注意:并不是所有函数都有唯一的极值点

解决方法:
多次运行,随机化初始化点
梯度下降法的初始点也是一个超参数

线性回归问题,损失函数J具有唯一最优解