type
status
date
slug
summary
tags
category
icon
password
Property
- 在
sgd
中:随机梯度下降在解决优化问题时比梯度下降更有效。
- 在
minibatch_sgd
中:在一个小批量中使用更大的观测值集,可以通过向量化提供额外效率。这是高效的多机、多GPU和整体并行处理的关键。
- 在
momentum
中:添加了一种机制,用于汇总过去梯度的历史以加速收敛
- 在
adagrad
中:通过对每个坐标缩放来实现高效计算的预处理器
- 在
rmsprop
中:通过学习率的调整来分离每个坐标的缩放
Adam算法 将所有这些技术汇总到一个高效的学习算法中。 不出预料,作为深度学习中使用的更强大和有效的优化算法之一,它非常受欢迎。 但是它并非没有问题——有时可能由于方差控制不良而发散。 在完善工作中,
Zaheer.Reddi.Sachan.ea.2018
给Adam算法提供了一个称为Yogi的热补丁来解决这些问题。算法
Adam算法的关键组成部分之一是:它使用指数加权移动平均值来估算梯度的动量和二次矩,即它使用状态变量
这里 和 是非负加权参数。 常将它们设置为 和 。 也就是说,方差估计的移动远远慢于动量估计的移动。如果初始化 ,就会获得一个相当大的初始偏差。 可以通过使用 来解决这个问题。 相应地,标准化状态变量由下式获得
有了正确的估计,可以写出更新方程。 首先,以非常类似于RMSProp算法的方式重新缩放梯度以获得
与RMSProp不同,我们的更新使用动量 而不是梯度本身。 此外,由于使用 而不是 进行缩放,两者会略有差异。 前者在实践中效果略好一些,因此与RMSProp算法有所区分。 通常选择 ,这是为了在数值稳定性和逼真度之间取得良好的平衡。
最后,简单更新:
回顾Adam算法,它的设计灵感很清楚: 首先,动量和规模在状态变量中清晰可见, 它们相当独特的定义使我们移除偏项(这可以通过稍微不同的初始化和更新条件来修正)。 其次,RMSProp算法中两项的组合都非常简单。 最后,明确的学习率 使我们能够控制步长来解决收敛问题。
实现
从零实现
为方便起见,我们将时间步存储在
hyperparams
字典中。 简洁实现
Yogi
Adam算法也存在一些问题: 即使在凸环境下,当 的二次矩估计值爆炸时,它可能无法收敛。
Zaheer.Reddi.Sachan.ea.2018
为 提出了的改进更新和参数初始化。 论文中建议重写Adam算法更新如下:每当具有值很大的变量或更新很稀疏时, 可能会太快地“忘记”过去的值。 一个有效的解决方法是将 替换为 。 这就是Yogi更新,现在更新的规模不再取决于偏差的量。
论文中,作者还进一步建议用更大的初始批量来初始化动量,而不仅仅是初始的逐点估计。
小结
- Adam算法将许多优化算法的功能结合到了相当强大的更新规则中
- Adam算法在RMSProp算法基础上创建的,还在小批量的随机梯度上使用EWMA
- 在估计动量和二次矩时,Adam算法使用偏差校正来调整缓慢的启动速度
- 对于具有显著差异的梯度,可能会遇到收敛性问题。可以通过使用更大的小批量或者切换到改进的估计值 来修正它们。Yogi提供了这样的替代方案