type
status
date
slug
summary
tags
category
icon
password
Property
默认初始化
前面的部分,我们使用正态分布来初始化权重值。如果不指定初始化方法, 框架将使用默认的随机初始化方法,对于中等难度的问题,这种方法通常很有效。
Xavier初始化
没有非线性的全连接层输出,对于该层输入及其相关权重
权重 都是从同一分布中独立抽取的。 此外,假设该分布具有零均值和方差。 注意,这并不意味着分布必须是高斯的,只是均值和方差需要存在。 现在,让我们假设层的输入也具有零均值和方差, 并且它们独立于并且彼此独立。 在这种情况下,可以按如下方式计算的平均值和方差:
保持方差不变的一种方法是设置 。 现在考虑反向传播过程,我们面临着类似的问题,尽管梯度是从更靠近输出的层传播的。 使用与前向传播相同的推断,我们可以看到,除非, 否则梯度的方差可能会增大,这使得我们进退两难:不可能同时满足这两个条件。 相反,只需满足:
这就是现在标准且实用的Xavier初始化的基础, 它以其提出者第一作者的名字命名。 通常,Xavier初始化从均值为零,方差 的高斯分布中采样权重。 我们也可以利用Xavier的直觉来选择从均匀分布中抽取权重时的方差。 注意均匀分布 的方差为代入到 的条件中,将得到初始化值域:
管在上述数学推理中,“不存在非线性”的假设在神经网络中很容易被违反, 但Xavier初始化方法在实践中被证明是有效的