经典网络模型介绍系列——VGGNet
姓名:冯莹莹;学号:21011210213;学院:通信工程学院
【嵌牛导读】VGG网络主要证明了增加网络的深度能够在一定程度上影响网络最终的性能。
【嵌牛鼻子】VGGNet
【嵌牛提问】VGGNet的结构、创新点是什么?
【嵌牛正文】
VGG有两种结构,VGG16和VGG19,两者并没有本质区别,只是网络深度不一样。VGG模型中卷积核大小全部为3*3。
1.使用了非常小的卷积核(3*3)搭建更深的网络结构;
2.层数更深更宽(11层、13层、16层、19层);
3.池化核变小且为偶数;
4.网络测试阶段将训练段的三个全连接替换为三个卷积。
1.结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3*3)和***池化尺寸(2*2);
2.几个小滤波器(3*3)卷积层的组合比一个大滤波器(5*5或7*7)卷积层好;
3.验证了通过不断加深网络结构可以提升性能。
1.共有13个卷积层,全部采用大小为3*3的卷积核,步长为1;
2.拥有5个大小为2*2的***池化核,步长为2;
3.拥有3个全连接层。
##输入层
输入图片大小:224*224*3,图片在输入层进行了减均值预处理;
##conv1_1:
输入特征图大小:224*224*3
卷积核大小:3*3
卷积核数量:3*64
输出特征图大小:224*224*64
##conv1_2:
输入特征图大小:224*224*64
卷积核大小:3*3
卷积核数量:64*64
输出特征图大小:224*224*64
##pool1:***池化
输入特征图大小:224*224*64
池化核大小:2*2
输出特征图大小:112*112*64
##conv2_1:
输入特征图大小:112*112*64
卷积核大小:3*3
卷积核数量:64*128
输出特征图大小:112*112*128
##conv2_2:
输入特征图大小:112*112*128
卷积核大小:3*3
卷积核数量:128*128
输出特征图大小:112*112*128
##pool2:***池化
输入特征图大小:112*112*128
池化核大小:2*2
输出特征图大小:56*56*128
##conv3_1:
输入特征图大小:56*56*128
卷积核大小:3*3
卷积核数量:128*256
输出特征图大小:56*56*256
##conv3_2:
输入特征图大小:56*56*256
卷积核大小:3*3
卷积核数量:256*256
输出特征图大小:56*56*256
##conv3_3:
输入特征图大小:56*56*256
卷积核大小:3*3
卷积核数量:256*256
输出特征图大小:56*56*256
##pool3:***池化
输入特征图大小:56*56*256
池化核大小:2*2
输出特征图大小:28*28*256
##conv4_1:
输入特征图大小:28*28*256
卷积核大小:3*3
卷积核数量:256*512
输出特征图大小:28*28*512
##conv4_2:
输入特征图大小:28*28*512
卷积核大小:3*3
卷积核数量:512*512
输出特征图大小:28*28*512
##conv4_3:
输入特征图大小:28*28*512
卷积核大小:3*3
卷积核数量:512*512
输出特征图大小:28*28*512
##pool4:***池化
输入特征图大小:28*28*512
池化核大小:2*2
输出特征图大小:14*14*512
##conv5_1:
输入特征图大小:14*14*512
卷积核大小:3*3
卷积核数量:512*512
输出特征图大小:14*14*512
##conv5_2:
输入特征图大小:14*14*512
卷积核大小:3*3
卷积核数量:512*512
输出特征图大小:14*14*512
##conv5_3:
输入特征图大小:14*14*512
卷积核大小:3*3
卷积核数量:512*512
输出特征图大小:14*14*512
##pool5:***池化
输入特征图大小:14*14*512
池化核大小:2*2
输出特征图大小:7*7*512
##fc6:
输入:7*7*512
输出:1*1*4096
##fc7:
输入:1*1*4096
输出:1*1*4096
##fc8:
输入:1*1*4096
输出:1*1*1000
-表达能力更强;
-学习更加简单。
卷积神经网络的结构、尺寸
(摘录源于: CS231n课程笔记 )
最常见的形式就是将一些卷积层和ReLU层放在一起,其后紧跟池化层,然后重复如此直到图像在空间上被缩小到一个足够小的尺寸,在某个地方过渡成全连接层也较为常见。最后的全连接层得到输出,比如分类评分等。
换句话说,最常见的卷积神经网络结构如下:
INPUT - [[CONV - RELU]*N - POOL?]*M - [FC - RELU]*K - FC
其中*指的是重复次数,POOL?指的是一个可选的汇聚层。其中N =0,通常N=3,M=0,K=0,通常K3。例如,下面是一些常见的网络结构规律:
输入层(包含图像的)应该能被2整除很多次。常用数字包括32(比如CIFAR-10),64,96(比如STL-10)或224(比如ImageNet卷积神经网络),384和512。
最常用的设置是用用2x2感受野,步长为1。
———·———·———·———·———·———·———·———·———·———·——
(以下)直接全复制,供查阅参考。
———·———·———·———·———·———·———·———·———·———·——
下面是卷积神经网络领域中比较有名的几种结构:
VGGNet的细节: 我们进一步对 VGGNet 的细节进行分析学习。整个VGGNet中的卷积层都是以步长为1进行3x3的卷积,使用了1的零填充,汇聚层都是以步长为2进行了2x2的***值汇聚。可以写出处理过程中每一步数据体尺寸的变化,然后对数据尺寸和整体权重的数量进行查看:
注意,大部分的内存和计算时间都被前面的卷积层占用,大部分的参数都用在后面的全连接层,这在卷积神经网络中是比较常见的。在这个例子中,全部参数有140M,但***个全连接层就包含了100M的参数。
一旦对于所有这些数值的数量有了一个大略估计(包含激活数据,梯度和各种杂项),数量应该转化为以GB为计量单位。把这个值乘以4,得到原始的字节数(因为每个浮点数占用4个字节,如果是双精度浮点数那就是占用8个字节),然后多次除以1024分别得到占用内存的KB,MB,最后是GB计量。如果你的网络工作得不好,一个常用的方法是降低批尺寸(batch size),因为绝大多数的内存都是被激活数据消耗掉了。
VGGnet简介
VGGnet是由牛津大学和DeepMind研发的深度学习网络。它是由Alexnet发展而来的,其结构如下图所示:
其中,
VGG16包含了16个隐藏层(13个卷积层+3个全连接层),如图中的D列所示;
VGG19包含了19个隐藏层(16个卷积层+3个全连接层),如图中的E列所示。
VGGnet相比于Alex-net而言,具有更小的卷积核,都是3x3的,而Alex-net卷积核较大(11x11,7x7,5x5)。并且相比于AlexNet的3x3的池化核,VGG全部为2x2的池化核。
但是VGG耗费更多计算资源,并且使用了更多的参数。
VGG Net 论文细读
论文地址:《 Very Deep Convolutional Networks for Large-Scale Image Recognition 》
思维导图:
LSVRC:大规模图像识别挑战赛
ImageNet Large Scale Visual Recognition Challenge 是李飞飞等人于2010年创办的图像识别挑战赛,自2010起连续举办8年,极大地推动计算机视觉发展。比赛项目涵盖:图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)。
VGG Net由牛津大学的视觉几何组( V isual G eometry G roup)参加2014年ILSVRC提出的网络模型,它主要的贡献是展示了卷积神经网络的深度(depth)是算法优良性能的关键部分。
研究了“卷积网络的深度”在大规模的图像识别环境下对准确性的影响(即神经网络的深度与其性能之间的关系)。
使用一个非常小的卷积核 对网络深度进行评估,评估发现将网络深度加至16层-19层,性能有了显著提升。
在ImageNet Challenge 2014竞赛中,定位赛道获得***名,分类赛道获得第二名。
论文提出了多种规模的网络架构(不同规模深度不尽相同),下图为其中性能表现良好的网络架构之一:VGG16结构图。
所有卷积操作之后跟有3个全连接层(FC层):
所有的ConvNet配置如图所示,VGG结构全部都采用较小的卷积核(3x3,部分1x1):
两个3×3的卷积层串联相当于1个5×5的卷积层(二者具有等效感受野5x5),3个串联的3×3卷积层串联的效果相当于一个7×7的卷积层;
下图展示了为什么“两个3x3卷积层”与“单个5x5卷积层”具有等效的5x5的感受野。
2个3x3卷积层拥有比1个5x5卷积层更多的非线性变换(前者可以使用两次ReLU激活函数,而后者只有一次),使得卷积神经网络对特征的学习能力更强。
不影响输入输出的维度情况下(即图片宽高尺寸不变),降低了大量运算,同时改变了维度(通道数);
卷积之后再紧跟ReLU进行非线性处理,提高决策函数的非线性。
详见:
数据增强,有利于预防过拟合。
测试阶段与训练阶段主要有两点不同:
VGGNet网络特点:
关于vggnet和vggnet网络结构的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。