Pytorch内置损失函数
2021-11-1
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property

很多的 loss 函数都有 size_averagereduce 两个布尔类型的参数。因为一般损失函数都是直接计算 batch 的数据,因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。
  • 如果 reduce = False,那么 size_average 参数失效,直接返回向量形式的 loss;
  • 如果 reduce = True,那么 loss 返回的是标量
    • 如果 size_average = True,返回 loss.mean()
    • 如果 size_average = False,返回 loss.sum()
 
Pytorch最新的版本将弃用这两参数改用reduction:
  • weight:(张量,可选)可以指定一个一维的Tensor,用来设置每个类别的权重。用C表示类别的个数,Tensor的长度应该为C。当训练集不平衡时该参数十分有用。
  • size_average:(最新的版本已弃用) 默认为True,此时损失是每个minibatch的平均;如果设成False,则对每个minibatch求和。这个属性只有当reduce参数设置成True时才生效。
  • reduce:(最新的版本已弃用) 默认为True,此时损失为根据size_average参数的值计算每个minibatch的和或者是平均;如果设置成False,忽略size_average参数的值,并返回每个元素的损失。
  • ignore_index:(int,可选)可以设置一个被忽略值,使这个值不会影响到输入的梯度的计算。当size_average为True时,loss的平均值也会忽略该值。
  • reduction: (string,可选) ”none”:不应用任何缩减,“mean”:取输出的加权平均值,“sum”:输出将被求和。默认为‘mean’。注意:size_average和reduce正在被弃用,同时,指定这两个参数之一将覆盖reduction

nn.L1Loss

这里要求的维度要一样(可以是向量或者矩阵),得到的 loss 维度也是对应一样的
 

nn.SmoothL1Loss

也叫作 Huber Loss,误差在 (-1,1) 上是平方损失,其他情况是 L1 损失
 

nn.MSELoss

均方损失函数

nn.BCELoss

二分类用的交叉熵,用的时候需要在该层前面加上 Sigmoid 函数。
因为离散版的交叉熵定义是 ,其中都是向量,且都是概率分布。如果是二分类的话,因为只有正例和反例,且两者的概率和为 1,那么只需要预测一个概率就好了,因此可以简化成
 

nn.BCEWithLogitsLoss

上面的 nn.BCELoss 需要手动加上一个 Sigmoid 层,这里是结合了两者,这样做能够利用 log_sum_exp trick,使得数值结果更加稳定。建议使用这个损失函数。
 

nn.CrossEntropyLoss

多分类用的交叉熵损失函数,用这个loss前面不需要加 Softmax 层。
这里损害函数的计算,按理说应该也是原始交叉熵公式的形式,但是这里限制了target类型为torch.LongTensr,而且不是多标签意味着标签是 one-hot 编码的形式,即只有一个位置是 1,其他位置都是 0,那么带入交叉熵公式中化简后就成了下面的简化形式。
这里 ,是没有经过 Softmax 的激活值, N是维度大小; 是标量,是对应的标签,可以看到两者维度是不一样的。C 是要分类的个数。 是维度为C的向量,表示标签的权重,样本少的类别,可以考虑把权重设置大一点。
 

nn.NLLLoss

用于多分类的负对数似然损失函数
在前面接上一个 nn.LogSoftMax 层就等价于交叉熵损失了。事实上,nn.CrossEntropyLoss 也是调用这个函数。注意这里的 和上个交叉熵损失里的不一样,这里是经过运算后的数值
 

nn.NLLLoss2d

和上面类似,但是多了几个维度,一般用在图片上。现在的 pytorch 版本已经和上面的函数合并了。
  • input, (N, C, H, W)
  • target, (N, H, W)
比如用全卷积网络做 Semantic Segmentation 时,最后图片的每个点都会预测一个类别标签。

nn.KLDivLoss

KL 散度,又叫做相对熵,算的是两个分布之间的距离,越相似则越接近零。
注意这里的 概率

nn.MarginRankingLoss

评价相似度的损失
这里的三个都是标量,y 只能取 1 或者 -1,取 1 时表示 x1 比 x2 要大;反之 x2 要大。参数 margin 表示两个向量至少要相聚 margin 的大小,否则 loss 非负。默认 margin 取零。

nn.MultiMarginLoss

多分类(multi-class)的 Hinge 损失,
其中 表示标签, 默认取 1, 默认取 1,也可以取别的值。

nn.MultiLabelMarginLoss

多类别(multi-class)多分类(multi-classification)的 Hinge 损失,是上面 MultiMarginLoss 在多类别上的拓展。同时限定 p = 1,margin = 1.
 

nn.SoftMarginLoss

多标签二分类问题,这 项都是二分类问题,其实就是把 个二分类的 loss 加起来,化简一下。其中 只能取 两种,代表正类和负类。和下面的其实是等价的,只是 的形式不同。

nn.MultiLabelSoftMarginLoss

上面的多分类版本,根据最大熵的多标签 one-versue-all 损失,其中 只能取 两种,代表正类和负类。
 

nn.CosineEmbeddingLoss

余弦相似度的损失,目的是让两个向量尽量相近。注意这两个向量都是有梯度的。
margin可以取 ,但是比较建议取 0-0.5 较好。
 
  • PyTorch
  • Dataset&DataLoader优化和凸性
    目录