首页 > Web开发 > 详细

(Review cs231n) The Gradient Calulation of Neural Network

时间:2019-03-17 16:21:32      阅读:196      评论:0      收藏:0      [点我收藏+]

前言:牵扯到较多的数学问题

原始的评分函数:

技术分享图片

两层神经网络,经过一个激活函数:

技术分享图片

如图所示,中间隐藏层的个数的各数为超参数:

技术分享图片

和SVM,一个单独的线性分类器需要处理不同朝向的汽车,但是它并不能处理不同颜色的汽车,它并不是一个好的分类器。

但是如果使用有一百个数值的中间层的神经网络,我们可以给这一百个数值赋值。

例如第一个数值处理朝向正前方的汽车;只用来识别朝向正前方的汽车,下一个数值用来处理朝向偏右的车等,得到的数值只有图片满足这些详细要求的时候才会正,其他情况下为0,接下来还可以处理不同颜色不同朝向的汽车,一个针对所有不同情况下汽车的模板,中间层会对所有的汽车进行表示,如果图像符合要求,就会得到正值 。

W2会对所有不同情况下的汽车模板进行汇总,比如我们现在有20种汽车模型,为了得到汽车分类器的评分,需要再加入一个矩阵乘法,用来给不同的汽车模型得到权重的合,如果一个汽车满足了一个模型,那么这个模型的输出再乘以一个正权重加入总评分。

100是隐藏层的大小,可以改变大小的超参数,自行选择适合的模型来匹配不同汽车的朝向问题。

一般超参数会选尽可能大的,取决于你的电脑是否支持。

一个三层的神经网络,想要扩展它,简单的添加重复的隐藏层。

技术分享图片

把相同的隐藏层添加进去让网络更深。

 技术分享图片

矩阵求导的计算方式也是一样的,需要注意的一个细节是如果技术分享图片,计算技术分享图片需要对技术分享图片进行转置,计算技术分享图片需要对技术分享图片进行转置,并且因为技术分享图片技术分享图片维度相同,技术分享图片技术分享图片维度相同,所以我们在计算导数的时候关注一下矩阵维度,这样可以减少错误的概率。

两层神经网络的训练过程,使用三维矩阵来训练做二元分类的神经网络,y的标签是二进制数,使用逻辑回归损失:


"""
Created on Sat Mar 16 16:54:51 2019


@author: ckc
"""

 import numpy as np


X = np.array([[0,0,1],[0,1,1],[1,0,1],[1,1,1]]) # size = 4*3
y = np.array([[0,1,1,0]]).T #size= 4*1, T 转置
weight1 = 2* np.random.random((3,4)) - 1
weight2 = 2*np.random.random((4,1)) - 1
#for j in xrange(60000):
l1 = 1/(1+np.exp(-(np.dot(X,weight1))))

l2 = 1/(1+np.exp(-(np.dot(l1,weight2))))

l2_delta = (y - l2) * (l2*(1-l2)) # 第二层的梯度,dL/dz * dz/dx局部梯度,(y-l2为逻辑回归损失)
l1_delta = l2_delta.dot(weight2.T) * (l1*(1-l1)) # 4*1 * 1*4 = 4*4 ,第一层的梯度
weight2 += l1.T.dot(l2_delta)
weight1 += X.T.dot(l1_delta)

 

分析:

 技术分享图片

1. 每一层的delta为反向传播的chain rule 推导的结果,并为传播到q_{n}=w.dot(x)前,注意w需要进行转置为w^{T}以匹配维度。

2. 进行参数更新,W_{n} += dw_{n} , 其中dw_{n} = delta_{n}*(dq_{n}/dw_{}) 

技术分享图片

其中:

技术分享图片

所以:

技术分享图片

x的转置,用于匹配维度

 

(Review cs231n) The Gradient Calulation of Neural Network

原文:https://www.cnblogs.com/ChenKe-cheng/p/10542821.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!