激活函数 | 彩潭有鲤的札记

激活函数（activation function）通过计算加权和并加上偏置来确定神经元是否应该被激活，它们将输入信号转换为输出的可微运算，大多数激活函数都是非线性的

对于一个定义域在， sigmoid函数将输入变换为区间(0, 1)上的输出。因此，sigmoid通常称为挤压函数：它将范围（-inf, inf）中的任意输入压缩到区间（0, 1）中的某个值：

在最早的神经⽹络中，科学家们感兴趣的是对“激发”或“不激发”的⽣物神经元进⾏建模。因此，这⼀领域的先驱，如⼈⼯神经元的发明者麦卡洛克和⽪茨，从他们开始就专注于阈值单元。阈值单元在其输⼊低于某个阈值时取值0，当输⼊超过阈值时取值1。

当⼈们的注意⼒逐渐转移到基于梯度的学习时，sigmoid函数是⼀个⾃然的选择，因为它是⼀个平滑的、可微的阈值单元近似。当我们想要将输出视作⼆分类问题的概率时，sigmoid仍然被⼴泛⽤作输出单元上的激活函数（可以将sigmoid视为softmax的特例）。然而，sigmoid在隐藏层中已经较少使⽤，它在⼤部分时候已经被更简单、更容易训练的ReLU所取代。

下⾯绘制sigmoid函数，当输⼊接近0时，sigmoid函数接近线性变换

与sigmoid函数类似， tanh(双曲正切)函数也能将其输入压缩转换到区间(-1, 1)上。 tanh函数的公式如下：

输入接近0时，tanh的导数接近最大值1。与sigmoid类似，输入在任一方向上越远离0点，导数越接近0。