AdaGrad算法 | 彩潭有鲤的札记

type

status

date

slug

summary

稀疏特征和学习率

假设训练一个语言模型，为了获得良好的准确性，大多希望在训练的过程中降低学习率，速度通常为或更低。现在讨论关于稀疏特征（即只在偶尔出现的特征）的模型训练，这对自然语言来说很常见。例如，我们看到“预先条件”这个词比“学习”这个词的可能性要小得多。但是，它在计算广告学和个性化协同过滤等其他领域也很常见。

只有在这些不常见的特征出现时，与其相关的参数才会得到有意义的更新。鉴于学习率下降，我们可能最终会面临这样的情况：常见特征的参数相当迅速地收敛到最佳值，而对于不常见的特征，仍缺乏足够的观测以确定其最佳值。换句话说，学习率要么对于常见特征而言降低太慢，要么对于不常见特征而言降低太快。

解决此问题的一个方法是记录我们看到特定特征的次数，然后将其用作调整学习率。即我们可以使用大小为的学习率，而不是。在这里计下了我们截至时观察到功能的次数。这其实很容易实施且不产生额外损耗。

AdaGrad算法通过将粗略的计数器替换为先前观察所得梯度的平方之和来解决这个问题。它使用来调整学习率。这有两个好处：首先，不再需要决定梯度何时算足够大。其次，它会随梯度的大小自动变化。通常对应于较大梯度的坐标会显著缩小，而其他梯度较小的坐标则会得到更平滑的处理。在实际应用中，它促成了计算广告学及其相关问题中非常有效的优化程序。但是，它遮盖了AdaGrad固有的一些额外优势，这些优势在预处理环境中很容易被理解。

预处理

凸优化问题有助于分析算法的特点。毕竟对于大多数非凸问题来说，获得有意义的理论保证很难，但是直觉和洞察往往会延续。让我们来看看最小化这一问题。

我们可以根据其特征分解重写这个问题，来得到一个简化得多的问题，使每个坐标都可以单独解出：

这里使用了，且因此。修改后优化器为且最小值为。这样更容易计算，因为是一个包含特征值的对角矩阵。

如果稍微扰动，我们会期望在的最小化器中只产生微小的变化。遗憾的是，情况并非如此。虽然的微小变化导致了同样的微小变化，但的（以及的）最小化器并非如此。每当特征值很大时，我们只会看到和的最小值发声微小变化。相反，对于小的来说，的变化可能是剧烈的。最大和最小的特征值之比称为优化问题的条件数（condition number）：

如果条件编号很大，准确解决优化问题就会很难。我们需要确保在获取大量动态的特征值范围时足够谨慎：难道我们不能简单地通过扭曲空间来“修复”这个问题，从而使所有特征值都是？理论上这很容易：我们只需要的特征值和特征向量即可将问题从整理到中的一个。在新的坐标系中，可以被简化为。可惜，这是一个相当不切实际的想法。一般而言，计算特征值和特征向量要比解决实际问题“贵”得多。

虽然准确计算特征值可能会很昂贵，但即便只是大致猜测并计算它们，也可能已经比不做任何事情好得多。特别是，我们可以使用的对角线条目并相应地重新缩放它。这比计算特征值开销小的多。

在这种情况下，我们得到了，特别注意对于所有，。在大多数情况下，这大大简化了条件数。例如我们之前讨论的案例，它将完全消除眼下的问题，因为问题是轴对齐的。

遗憾的是，我们还面临另一个问题：在深度学习中，我们通常情况甚至无法计算目标函数的二阶导数：对于，即使只在小批量上，二阶导数可能也需要空间来计算，导致几乎不可行。 AdaGrad算法巧妙的思路是，使用一个代理来表示黑塞矩阵（Hessian）的对角线，既相对易于计算又高效。

为了了解它是如何生效的，让我们来看看。我们有

其中是的优化器。因此，梯度的大小取决于和与最佳值的差值。如果没有改变，那这就是我们所求的。毕竟在这种情况下，梯度的大小就足够了。由于AdaGrad算法是一种随机梯度下降算法，所以即使是在最佳值中，我们也会看到具有非零方差的梯度。因此，我们可以放心地使用梯度的方差作为黑塞矩阵比例的廉价替代。

算法

让我们接着上面正式开始讨论。我们使用变量来累加过去的梯度方差，如下所示：

在这里，操作是按照坐标顺序应用。也就是说，有条目。同样，有条目，并且有条目。与之前一样，是学习率，是一个为维持数值稳定性而添加的常数，用来确保我们不会除以。最后，初始化。

就像在动量法中我们需要跟踪一个辅助变量一样，在AdaGrad算法中，我们允许每个坐标有单独的学习率。与SGD算法相比，这并没有明显增加AdaGrad的计算代价，因为主要计算用在及其导数。

请注意，在中累加平方梯度意味着基本上以线性速率增长（由于梯度从最初开始衰减，实际上比线性慢一些）。这产生了一个学习率，但是在单个坐标的层面上进行了调整。对于凸问题，这完全足够了。然而，在深度学习中，我们可能希望更慢地降低学习率。这引出了许多AdaGrad算法的变体，我们将在后续章节中讨论它们。眼下让我们先看看它在二次凸问题中的表现如何。我们仍然以同一函数为例：

我们将使用与之前相同的学习率来实现AdaGrad算法，即。可以看到，自变量的迭代轨迹较平滑。但由于的累加效果使学习率不断衰减，自变量在迭代后期的移动幅度较小。

我们将学习率提高到，可以看到更好的表现。这已经表明，即使在无噪声的情况下，学习率的降低可能相当剧烈，我们需要确保参数能够适当地收敛。

从零开始实现

同动量法一样，AdaGrad算法需要对每个自变量维护同它一样形状的状态变量。

简洁实现

可直接使用深度学习框架中提供的AdaGrad算法来训练模型。

小结

AdaGrad算法会在单个坐标层面动态降低学习率

AdaGrad算法利用梯度的大小作为调整进度速率的手段：用较小的学习率来补偿带有较大梯度的坐标

在深度学习问题中，由于内存和计算限制，计算准确的二阶导数通常是不可行的。梯度可以作为一个有效的代理。

如果优化问题的结构相当不均匀，AdaGrad算法可以帮助缓解扭曲

AdaGrad算法对于稀疏特征特别有效，在此情况下由于不常出现的问题，学习率需要更慢地降低。

在深度学习问题上，AdaGrad算法有时在降低学习率方面可能过于剧烈。