门控循环单元 GRU | 彩潭有鲤的札记

type

status

date

slug

summary

门控隐状态

门控循环单元与普通的循环神经网络之间的关键区别在于：后者支持隐状态的门控。这意味着模型有专门的机制来确定应该何时更新隐状态，以及应该何时重置隐状态。这些机制是可学习的，并且能够解决了上面列出的问题。例如，如果第一个词元非常重要，模型将学会在第一次观测之后不更新隐状态。同样，模型也可以学会跳过不相关的临时观测。最后，模型还将学会在需要的时候重置隐状态。

重置门和更新门

把它们设计成区间中的向量，这样就可以进行凸组合。重置门允许控制“可能还想记住”的过去状态的数量；更新门将允许控制新状态中有多少个是旧状态的副本。

下图描述了门控循环单元中的重置门和更新门的输入，输入是由当前时间步的输入和前一时间步的隐状态给出。两个门的输出是由使用sigmoid激活函数的两个全连接层给出。

对于给定的时间步，假设输入是一个小批量 （样本个数：，输入个数：），上一个时间步的隐状态是（隐藏单元个数：）。那么重置门和更新门的计算如下所示：

其中和是权重参数，是偏置参数。在求和过程中会触发广播机制。使用sigmoid函数将输入值转换到区间

候选隐状态

将重置门与常规隐状态更新机制集成，得到在时间步的候选隐状态：

和是权重参数，是偏置项，符号是Hadamard积（按元素乘积）运算符。在这里，使用tanh非线性激活函数来确保候选隐状态中的值保持在区间中和的元素相乘可以减少以往状态的影响。每当重置门中的项接近时，恢复一个普通的循环神经网络。对于重置门中所有接近的项，候选隐状态是以作为输入的多层感知机的结果。因此，任何预先存在的隐状态都会被重置为默认值。

隐状态

上述的计算结果只是候选隐状态，仍然需要结合更新门的效果。这一步确定新的隐状态在多大程度上来自旧的状态和新的候选状态。更新门仅需要在和之间进行按元素的凸组合就可以实现这个目标。这就得出了门控循环单元的最终更新公式：

每当更新门接近时，模型就倾向只保留旧状态。此时，来自的信息基本上被忽略，从而有效地跳过了依赖链条中的时间步。相反，当接近时，新的隐状态就会接近候选隐状态。这些设计可以帮助处理循环神经网络中的梯度消失问题，并更好地捕获时间步距离很长的序列的依赖关系。例如，如果整个子序列的所有时间步的更新门都接近于，则无论序列的长度如何，在序列起始时间步的旧隐状态都将很容易保留并传递到序列结束。