参数管理 | 彩潭有鲤的札记

type

status

date

slug

summary

当通过Sequential类定义模型时，我们可以通过索引来访问模型的任意层。这就像模型是一个列表一样，每层的参数都在其属性中。如下所示，可以检查第二个全连接层的参数：

输出的结果告诉我们：这个全连接层包含两个参数，分别是该层的权重和偏置。两者都存储为单精度浮点数（float32）。注意：参数名称允许唯一标识每个参数，即使在包含数百个层的网络中也是如此

每个参数都表示为参数类的一个实例，要对参数执行任何操作，首先需要访问底层的数值

下面的代码从第二个全连接层（即第三个神经网络层）提取偏置，提取后返回的是一个参数类实例，并进一步访问该参数的值

参数是复合的对象，包含值、梯度和额外信息。这就是我们需要显式参数值的原因。除了值之外，我们还可以访问每个参数的梯度。在上面这个网络中，由于我们还没有调用反向传播，所以参数的梯度处于初始状态

当需要对所有参数执行操作时，逐个访问它们可能会很麻烦。下面将通过演示来比较访问第一个全连接层的参数和访问所有层：

让我们看看，如果我们将多个块相互嵌套，参数命名约定是如何工作的。

我们首先定义一个生成块的函数（可以说是“块工厂”），然后将这些块组合到更大的块中

设计了网络后，我们看看它是如何工作的:

因为层是分层嵌套的，所以我们也可以像通过嵌套列表索引一样访问它们。下面，我们访问第一个主要的块中、第二个子块的第一层的偏置项

深度学习框架提供默认随机初始化，也允许我们创建自定义初始化方法通过其他规则实现初始化权重。

默认情况下，PyTorch会根据一个范围均匀地初始化权重和偏置矩阵，这个范围是根据输入和输出维度计算出的。 PyTorch的nn.init模块提供了多种预置初始化方法

下面的代码将所有权重参数初始化为标准差为0.01的高斯随机变量，且将偏置参数设置为0：

我们还可以将所有参数初始化为给定的常数，比如初始化为1:

我们还可以对某些块应用不同的初始化方法。例如，下面使用Xavier初始化方法初始化第一个神经网络层，然后将第三个神经网络层初始化为常量值42：

在下面的例子中，使用以下的分布为任意权重参数定义初始化方法：

同样，实现了一个my_init函数来应用到net

注意，我们始终可以直接设置参数

有时我们希望在多个层间共享参数：我们可以定义一个稠密层，然后使用它的参数来设置另一个层的参数

这个例子表明第三个和第五个神经网络层的参数是绑定的。它们不仅值相等，而且由相同的张量表示。因此，如果我们改变其中一个参数，另一个参数也会改变。

当参数绑定时，梯度会发生什么情况？答案是由于模型参数包含梯度，因此在反向传播期间第二个隐藏层（即第三个神经网络层）和第三个隐藏层（即第五个神经网络层）的梯度会加在一起。