type
status
date
slug
summary
tags
category
icon
password
Property
稀疏特征和学习率
假设训练一个语言模型,为了获得良好的准确性,大多希望在训练的过程中降低学习率,速度通常为 或更低。 现在讨论关于稀疏特征(即只在偶尔出现的特征)的模型训练,这对自然语言来说很常见。 例如,我们看到“预先条件”这个词比“学习”这个词的可能性要小得多。 但是,它在计算广告学和个性化协同过滤等其他领域也很常见。
只有在这些不常见的特征出现时,与其相关的参数才会得到有意义的更新。 鉴于学习率下降,我们可能最终会面临这样的情况:常见特征的参数相当迅速地收敛到最佳值,而对于不常见的特征,仍缺乏足够的观测以确定其最佳值。 换句话说,学习率要么对于常见特征而言降低太慢,要么对于不常见特征而言降低太快。
解决此问题的一个方法是记录我们看到特定特征的次数,然后将其用作调整学习率。 即我们可以使用大小为 的学习率,而不是 。 在这里 计下了我们截至 时观察到功能 的次数。 这其实很容易实施且不产生额外损耗。
AdaGrad算法通过将粗略的计数器 替换为先前观察所得梯度的平方之和来解决这个问题。 它使用 来调整学习率。 这有两个好处:首先,不再需要决定梯度何时算足够大。 其次,它会随梯度的大小自动变化。通常对应于较大梯度的坐标会显著缩小,而其他梯度较小的坐标则会得到更平滑的处理。 在实际应用中,它促成了计算广告学及其相关问题中非常有效的优化程序。 但是,它遮盖了AdaGrad固有的一些额外优势,这些优势在预处理环境中很容易被理解。
预处理
凸优化问题有助于分析算法的特点。 毕竟对于大多数非凸问题来说,获得有意义的理论保证很难,但是直觉和洞察往往会延续。 让我们来看看最小化 这一问题。
我们可以根据其特征分解 重写这个问题,来得到一个简化得多的问题,使每个坐标都可以单独解出:
这里使用了 ,且因此 。 修改后优化器为 且最小值为 。 这样更容易计算,因为 是一个包含 特征值的对角矩阵。
如果稍微扰动 ,我们会期望在 的最小化器中只产生微小的变化。 遗憾的是,情况并非如此。 虽然 的微小变化导致了 同样的微小变化,但 的(以及 的)最小化器并非如此。 每当特征值 很大时,我们只会看到 和 的最小值发声微小变化。 相反,对于小的 来说, 的变化可能是剧烈的。 最大和最小的特征值之比称为优化问题的条件数(condition number):
如果条件编号 很大,准确解决优化问题就会很难。 我们需要确保在获取大量动态的特征值范围时足够谨慎:难道我们不能简单地通过扭曲空间来“修复”这个问题,从而使所有特征值都是 ? 理论上这很容易:我们只需要 的特征值和特征向量即可将问题从整理到中的一个。 在新的坐标系中, 可以被简化为。 可惜,这是一个相当不切实际的想法。 一般而言,计算特征值和特征向量要比解决实际问题“贵”得多。
虽然准确计算特征值可能会很昂贵,但即便只是大致猜测并计算它们,也可能已经比不做任何事情好得多。 特别是,我们可以使用 的对角线条目并相应地重新缩放它。 这比计算特征值开销小的多。
在这种情况下,我们得到了 ,特别注意对于所有 , 。 在大多数情况下,这大大简化了条件数。 例如我们之前讨论的案例,它将完全消除眼下的问题,因为问题是轴对齐的。
遗憾的是,我们还面临另一个问题:在深度学习中,我们通常情况甚至无法计算目标函数的二阶导数:对于 ,即使只在小批量上,二阶导数可能也需要 空间来计算,导致几乎不可行。 AdaGrad算法巧妙的思路是,使用一个代理来表示黑塞矩阵(Hessian)的对角线,既相对易于计算又高效。
为了了解它是如何生效的,让我们来看看 。 我们有
其中是的优化器。 因此,梯度的大小取决于 和与最佳值的差值。 如果 没有改变,那这就是我们所求的。 毕竟在这种情况下,梯度 的大小就足够了。 由于AdaGrad算法是一种随机梯度下降算法,所以即使是在最佳值中,我们也会看到具有非零方差的梯度。 因此,我们可以放心地使用梯度的方差作为黑塞矩阵比例的廉价替代。
算法
让我们接着上面正式开始讨论。 我们使用变量 来累加过去的梯度方差,如下所示:
在这里,操作是按照坐标顺序应用。 也就是说, 有条目 。 同样, 有条目 , 并且 有条目 。 与之前一样, 是学习率, 是一个为维持数值稳定性而添加的常数,用来确保我们不会除以。 最后,初始化 。
就像在动量法中我们需要跟踪一个辅助变量一样,在AdaGrad算法中,我们允许每个坐标有单独的学习率。 与SGD算法相比,这并没有明显增加AdaGrad的计算代价,因为主要计算用在 及其导数。
请注意,在 中累加平方梯度意味着 基本上以线性速率增长(由于梯度从最初开始衰减,实际上比线性慢一些)。 这产生了一个学习率 ,但是在单个坐标的层面上进行了调整。 对于凸问题,这完全足够了。 然而,在深度学习中,我们可能希望更慢地降低学习率。 这引出了许多AdaGrad算法的变体,我们将在后续章节中讨论它们。 眼下让我们先看看它在二次凸问题中的表现如何。 我们仍然以同一函数为例:
我们将使用与之前相同的学习率来实现AdaGrad算法,即 。 可以看到,自变量的迭代轨迹较平滑。 但由于 的累加效果使学习率不断衰减,自变量在迭代后期的移动幅度较小。
我们将学习率提高到 ,可以看到更好的表现。 这已经表明,即使在无噪声的情况下,学习率的降低可能相当剧烈,我们需要确保参数能够适当地收敛。
从零开始实现
同动量法一样,AdaGrad算法需要对每个自变量维护同它一样形状的状态变量。
简洁实现
可直接使用深度学习框架中提供的AdaGrad算法来训练模型。
小结
- AdaGrad算法会在单个坐标层面动态降低学习率
- AdaGrad算法利用梯度的大小作为调整进度速率的手段:用较小的学习率来补偿带有较大梯度的坐标
- 在深度学习问题中,由于内存和计算限制,计算准确的二阶导数通常是不可行的。梯度可以作为一个有效的代理。
- 如果优化问题的结构相当不均匀,AdaGrad算法可以帮助缓解扭曲
- AdaGrad算法对于稀疏特征特别有效,在此情况下由于不常出现的问题,学习率需要更慢地降低。
- 在深度学习问题上,AdaGrad算法有时在降低学习率方面可能过于剧烈。