参数初始化 | 彩潭有鲤的札记

type

status

date

slug

summary

前面的部分，我们使用正态分布来初始化权重值。如果不指定初始化方法，框架将使用默认的随机初始化方法，对于中等难度的问题，这种方法通常很有效。

没有非线性的全连接层输出，对于该层输入及其相关权重

权重都是从同一分布中独立抽取的。此外，假设该分布具有零均值和方差。注意，这并不意味着分布必须是高斯的，只是均值和方差需要存在。现在，让我们假设层的输入也具有零均值和方差，并且它们独立于并且彼此独立。在这种情况下，可以按如下方式计算的平均值和方差：

保持方差不变的一种方法是设置。现在考虑反向传播过程，我们面临着类似的问题，尽管梯度是从更靠近输出的层传播的。使用与前向传播相同的推断，我们可以看到，除非，否则梯度的方差可能会增大，这使得我们进退两难：不可能同时满足这两个条件。相反，只需满足：

这就是现在标准且实用的Xavier初始化的基础，它以其提出者第一作者的名字命名。通常，Xavier初始化从均值为零，方差的高斯分布中采样权重。我们也可以利用Xavier的直觉来选择从均匀分布中抽取权重时的方差。注意均匀分布的方差为代入到的条件中，将得到初始化值域：

管在上述数学推理中，“不存在非线性”的假设在神经网络中很容易被违反，但Xavier初始化方法在实践中被证明是有效的