对几个经典方法的整理和比较
手打一下公式
梯度下降法:面向任何函数,收敛速度一阶,有发散可能。梯度下降法考虑函数的一阶梯度,找到一个合理的迭代方向,但是不能确定步长。
只利用了当前点的切线的信息
$x = x_0 - \lambda\nabla{F(x)}$
牛顿法:面向任何函数,收敛速度二阶,有发散可能。使用了二阶的梯度,lllaaa
$f‘(x) \apporx f‘(x_0) $
原文:https://www.cnblogs.com/zherlock/p/10237825.html