样式迁移 | 彩潭有鲤的札记

type

status

date

slug

summary

方法

首先初始化合成图像，例如将其初始化为内容图像。该合成图像是风格迁移过程中唯一需要更新的变量，即风格迁移所需迭代的模型参数。然后，选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。这个深度卷积神经网络凭借多个层逐级抽取图像的特征，可以选择其中某些层的输出作为内容特征或风格特征。以下图为例，这里选取的预训练的神经网络含有3个卷积层，其中第二层输出内容特征，第一层和第三层输出风格特征。

接下来，通过前向传播（实线箭头方向）计算风格迁移的损失函数，并通过反向传播（虚线箭头方向）迭代模型数，即不断更新合成图像。风格迁移常用的损失函数由3部分组成：

内容损失使合成图像与内容图像在内容特征上接近；

风格损失使合成图像与风格图像在风格特征上接近；

全变分损失则有助于减少合成图像中的噪点。

最后，当模型训练结束时输出风格迁移的模型参数，即得到最终的合成图像。

阅读内容和风格图像

预处理和后处理

定义图像的预处理函数和后处理函数。预处理函数preprocess对输入图像在RGB三个通道分别做标准化，并将结果变换成卷积神经网络接受的输入格式。后处理函数postprocess则将输出图像中的像素值还原回标准化之前的值。由于图像打印函数要求每个像素的浮点数值在0到1之间，对小于0和大于1的值分别取0和1。

抽取图像特征

使用基于ImageNet数据集预训练的VGG-19模型来抽取图像特征

为了抽取图像的内容特征和风格特征，可以选择VGG网络中某些层的输出。一般来说，越靠近输入层，越容易抽取图像的细节信息；反之，则越容易抽取图像的全局信息。为了避免合成图像过多保留内容图像的细节，选择VGG较靠近输出的层，即内容层，来输出图像的内容特征。我们还从VGG中选择不同层的输出来匹配局部和全局的风格，这些图层也称为风格层。 VGG网络使用了5个卷积块。我们选择第四卷积块的最后一个卷积层作为内容层，选择每个卷积块的第一个卷积层作为风格层。这些层的索引可以通过打印pretrained_net实例获取。

使用VGG层抽取特征时，只需要用到从输入层到最靠近输出层的内容层或风格层之间的所有层。下面构建一个新的网络net，它只保留需要用到的VGG的所有层

给定输入X，如果简单地调用前向传播net(X)，只能获得最后一层的输出。由于我们还需要中间层的输出，因此这里逐层计算，并保留内容层和风格层的输出

下面定义两个函数：get_contents函数对内容图像抽取内容特征； get_styles函数对风格图像抽取风格特征。因为在训练时无须改变预训练的VGG的模型参数，所以我们可以在训练开始之前就提取出内容特征和风格特征。由于合成图像是风格迁移所需迭代的模型参数，我们只能在训练过程中通过调用extract_features函数来抽取合成图像的内容特征和风格特征。

定义损失函数

风格迁移的损失函数由内容损失、风格损失和全变分损失3部分组成

内容损失通过平方误差函数衡量合成图像与内容图像在内容特征上的差异。平方误差函数的两个输入均extract_features函数计算所得到的内容层的输出

风格损失与内容损失类似，也通过平方误差函数衡量合成图像与风格图像在风格上的差异。为了表达风格层输出的风格，先通过extract_features函数计算风格层的输出。假设该输出的样本数为1，通道数为，高和宽分别为和，可以将此输出转换为矩阵X，其有行和列。这个矩阵可以被看作是由个长度为向量组合而成的。其中向量代表了通道上的风格特征。

在这些向量的格拉姆矩阵 中，行列的元素即向量和的内积。它表达了通道和通道上风格特征的相关性。我们用这样的格拉姆矩阵来表达风格层输出的风格。需要注意的是，当的值较大时，格拉姆矩阵中的元素容易出现较大的值。此外，格拉姆矩阵的高和宽皆为通道数。为了让风格损失不受这些值的大小影响，下面定义的gram函数将格拉姆矩阵除以了矩阵中元素的个数，即

自然地，风格损失的平方误差函数的两个格拉姆矩阵输入分别基于合成图像与风格图像的风格层输出。这里假设基于风格图像的格拉姆矩阵gram_Y已经预先计算好了

全变分损失

有时候，我们学到的合成图像里面有大量高频噪点，即有特别亮或者特别暗的颗粒像素。一种常见的去噪方法是全变分去噪（total variation denoising）：假设表示坐标处的像素值，降低全变分损失

能够尽可能使邻近的像素值相似

风格转移的损失函数是内容损失、风格损失和总变化损失的加权和。通过调节这些权重超参数，我们可以权衡合成图像在保留内容、迁移风格以及去噪三方面的相对重要性

初始化合成图像

在风格迁移中，合成的图像是训练期间唯一需要更新的变量。因此，我们可以定义一个简单的模型SynthesizedImage ，并将合成的图像视为模型参数。模型的前向传播只需返回模型参数即可

下面，我们定义get_inits函数。该函数创建了合成图像的模型实例，并将其初始化为图像X。风格图像在各个风格层的格拉姆矩阵styles_Y_gram将在训练前预先计算好

训练模型

在训练模型进行风格迁移时，我们不断抽取合成图像的内容特征和风格特征，然后计算损失函数。下面定义了训练循环

训练模型：首先将内容图像和风格图像的高和宽分别调整为300和450像素，用内容图像来初始化合成图像

可以看到，合成图像保留了内容图像的风景和物体，并同时迁移了风格图像的色彩。例如，合成图像具有与风格图像中一样的色彩块，其中一些甚至具有画笔笔触的细微纹理

完整代码