损失函数:衡量模型输出与真实标签的差异
损失函数:计算一个样本的一个差异
代价函数:计算整个样本的loss的平均值
目标函数:表示最终的一个目标,目标函数来说在有约束条件下的最小化就是损失函数(loss function)
代价函数未必是越小越好,因为很可能出现过拟合。因此为了不让代价函数达到最小,出现过拟合。于是我们就添加了Regularization的正则项L1,L2。
class _Loss(Module):
def __init__(self,reduction=‘mean‘):
super(_Loss, self).__init__()
if size_average is not None or reduce is not None:
self.reduction = _Reduction.legacy_get_string(size_average, reduce)
else:
self.reduction = reduction
分析流程:
crossentropyLoss的流程:
loss_functoin = nn.CrossEntropyLoss() #①处
先通过nn.CrossEntropyLoss构建损失函数赋给loss_function,紧接着在训练过程中通过
loss = loss_functoin(outputs, labels) #②处
进行计算其损失函数,输入神经网络模型的输出outputs的值和标签进行loss。
在①②处设置断点,step into①处时,进入loss.py,调用class CrossEntropyLoss类,继承_WeightedLoss类,也就是会继承一个带权值的Loss类。进入init的初始化类,能够看到它调用了一个父类的super(CrossEntropyLoss)的初始化类,再step into,能够看到它是一个_WeightedLoss类的init初始化,这个类继承_Loss这个基本类。再通过step into能够看到是继承的Module类,其主要是设置reduction。在这里reduction="mean"。
接下来我们在step into②处进行step into。刚刚在lossfunction处我们已经知道lossfunction是一个Module类型,所以这里输入一个outputs和labels之后就是执行了一个forward.在这里step into后的hook就比较熟悉,我们直接进入到
result = self.forward(*input, **kwargs)
再进入到step into后,进入到forward模块
def forward(self, input: Tensor, target: Tensor) -> Tensor:
return F.cross_entropy(input,target,weight=self.weight,ignore_index=self.ignore_index,reduction=self.reduction)
step into [F.cross_entropy],进入到functional.py中
if size_average is not None or reduce is not None:
reduction = _Reduction.legacy_get_string(size_average, reduce)
return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)
接下来就能够计算出loss,在这里为[loss:tensor(0.7012, grad_fn=<NllLossBackward>)]
[熵是香农从热力学方面引申的一个概念,用来描述该事情的不确定性,一个事件越不确定,它的熵就越大,例如明天下雨这件事的熵就比明天太阳升起这件事的熵要大。自信息是用来衡量单个事件的不确定性,px是事件x的概率,对概率取一个-log。熵是整个概率分布的不确定性,用来描述整个概率分布,它是自信息的一个期望。相对熵又叫KL散度,用来衡量两个分布之间的差异距离,虽然是可以计算的,但是它不是一个距离函数,距离函数是有对称性的,这里的相对熵没有对称性。从公式上来看,P是真实的分布,Q是模型输出的一个分布,我们需要用Q去拟合P的分布,所以是不具备对称性的。它是对log P(x)/Q(x)]求取期望。因此在深度学习的模型中,我们去优化交叉熵,实际上就是去优化相对熵的,训练集的P是固定的常数,所以在优化中是优化DKL(P,Q)]
在伯努利模型中,很容易发现概率为0.5的Loss值是0.69,通常意义表明模型训练坏了,当前模型不具备任何判别能力。因为它对任何的输出都是0.5,可能或者不可能。
主要参数:
交叉熵的计算公式如下:
nn.NLLLoss
功能:实现负对数似然函数中的负号功能
主要参数:
nn.NLLLoss(weight=None,size_average=None,ignore_index=-100,reduce=None,reduction=‘mean‘)
nn.BCELoss
功能:二分类交叉熵
注意事项:输入值取值在[0,1]
主要参数:
nn.BCELoss(weight=None,size_average=None,reduce=None,reduction=‘mean‘)
nn.BCEWithLogitsLoss
功能:结合Sigmoid与二分类交叉熵
注意事项:网络最后不加sigmoid函数
主要参数:
nn.BCEWithLogitsLoss(weight=None,size_average=None,reduce=None,reduction=‘mean‘,pos_weight=None)
原文:https://www.cnblogs.com/wuxero/p/14179986.html