CNN前向传播算法 | 彩潭有鲤的札记

type

status

date

slug

summary

CNN的基本结构

一个常见的CNN例子如下图：

图中是一个图形识别的CNN模型。可以看出最左边的船的图像就是我们的输入层，计算机理解为输入若干个矩阵，这点和DNN基本相同。

接着是卷积层（Convolution Layer），这个是CNN特有的，卷积层的激活函数使用的是ReLU。在卷积层后面是池化层(Pooling layer)，这个也是CNN特有的。需要注意的是，池化层没有激活函数。

卷积层+池化层的组合可以在隐藏层出现很多次，上图中出现两次。而实际上这个次数是根据模型的需要而来的。当然也可以灵活使用使用卷积层+卷积层，或者卷积层+卷积层+池化层的组合，这些在构建模型的时候没有限制。但是最常见的CNN都是若干卷积层+池化层的组合，如上图中的CNN结构。

在若干卷积层+池化层后面是全连接层（Fully Connected Layer, 简称FC），全连接层其实就是DNN结构，只是输出层使用了Softmax激活函数来做图像识别的分类。

从上面CNN的模型描述可以看出，CNN相对于DNN，比较特殊的也就是是卷积层和池化层。

用一个彩色的汽车样本的图像识别直观的看下CNN的结构。图中的CONV即为卷积层，POOL即为池化层，而FC即为DNN全连接层，包括了最后的用Softmax激活函数的输出层。

要理顺CNN的前向传播算法，重点是输入层的前向传播，卷积层的前向传播以及池化层的前向传播。而DNN全连接层和用Softmax激活函数的输出层的前向传播算法之前已经整理过了。

CNN输入层前向传播到卷积层

输入层的前向传播是CNN前向传播算法的第一步，一般输入层对应的都是卷积层，因此是输入层前向传播到卷积层。

以图像识别为例，先考虑最简单的，样本都是二维的黑白图片。这样输入层就是一个矩阵，矩阵的值等于图片的各个像素位置的值。这时和卷积层相连的卷积核就也是矩阵。

如果样本都是有RGB的彩色图片，这样输入就是3个矩阵，即分别对应R，G和B的矩阵，或者说是一个张量。这时和卷积层相连的卷积核就也是张量，对应的最后一维的维度为3，即每个卷积核都是3个子矩阵组成。

同样的方法，对于3D的彩色图片之类的样本，输入可以是4维，5维的张量，那么对应的卷积核也是个高维的张量。

不管维度多高，对于输入，前向传播的过程可以表示为：

其中，上标代表层数，星号代表卷积，而代表偏倚, 为激活函数，这里一般都是ReLU。

和DNN的前向传播比较一下，其实形式非常的像，只是这儿是张量的卷积，而不是矩阵的乘法。同时由于是张量，那么同样的位置，参数的个数就比DNN多很多了。

为了简化描述，后面如果没有特殊说明都默认输入是3维的张量，即用RBG可以表示的彩色图片。

这里需要自己定义的CNN模型参数是：

一般卷积核不止一个，比如有K个，那么输入层的输出，或者说第二层卷积层的对应的输入就个

卷积核中每个子矩阵的的大小，一般都用子矩阵为方阵的卷积核，比如的子矩阵

填充padding（以下简称P），卷积的时候，为了可以更好的识别边缘，一般都会在输入矩阵在周围加上若干圈的0再进行卷积，加多少圈则为多少

步幅stride（以下简称S），即在卷积过程中每次移动的像素距离大小

隐藏层前向传播到卷积层

假设隐藏层的输出是个矩阵对应的三维张量，则输出到卷积层的卷积核也是个子矩阵对应的三维张量。这时表达式和输入层的很像，也是

也可以写成个子矩阵子矩阵卷积后对应位置相加的形式，即：

与前面区别仅仅在于，这里的输入是隐藏层来的，而不是输入的原始图片样本形成的矩阵

这里需要定义卷积核的个数K，卷积核子矩阵的维度F，填充大小P以及步幅S

隐藏层前向传播到池化层

池化层的处理逻辑是比较简单的，目的就是对输入的矩阵进行缩小概括。比如输入的若干矩阵是维的，而池化大小是的区域，则输出的矩阵都是维的。

这里需要需要定义的CNN模型参数是：

池化区域的大小

池化的标准，一般是MAX或者Average

隐藏层前向传播到全连接层

由于全连接层就是普通的DNN模型结构，因此可以直接使用DNN的前向传播算法逻辑，即：

激活函数一般是sigmoid或者tanh

经过了若干全连接层之后，最后的一层为Softmax输出层。此时输出层和普通的全连接层唯一的区别是，激活函数是softmax函数。

这里需要需要定义的CNN模型参数是：

全连接层的激活函数

全连接层各层神经元的个数

CNN前向传播小结

输入：1个图片样本，CNN模型的层数L和所有隐藏层的类型，对于卷积层，要定义卷积核的大小K，卷积核子矩阵的维度F，填充大小P，步幅S。对于池化层，要定义池化区域大小k和池化标准（MAX或Average），对于全连接层，要定义全连接层的激活函数（输出层除外）和各层的神经元个数

输出：CNN模型的输出

根据输入层的填充大小P，填充原始图片的边缘，得到输入张量

初始化所有隐藏层的参数

for =2 to :

如果第层是卷积层,则输出为

如果第层是池化层,则输出为，这里的pool指按照池化区域大小k和池化标准将输入张量缩小的过程

如果第层是全连接层,则输出为

对于输出层第层: