MatConvNet工具包提供了好几个在imageNet数据库上训练好的CNN模型,可以利用这个训练好的模型提取图像的特征。本文就利用其中的 “imagenet-caffe-ref”的模型,提取图像特征(softmax前一层的输出,4096维),在几个常用的图像分类的数据库中进行了相应的分类实验。这实验的过程中,有对图片进行左右翻转用于增加训练数据。下面结果的表格中:Original原始结果,Flip增加翻转后的结果。
需要用到的toolbox及模型:
liblinear: 用于训练SVM, 实验中采用linear SVM 以及 c=1
数据库及相应的实验结果:
1. Caltech-101以及Caltech-256
随机的重复进行10次实验,取分类的结果的平均值,Training Images是每一个类别使用的训练图片数目。
Caltech-101
Training Images |
5 |
10 |
15 |
20 |
25 |
30 |
Original |
76.73 ± 0.79 |
82.06 ± 0.36 |
84.10 ± 0.69 |
85.32 ± 0.50 |
86.26 ± 0.44 |
86.96 ± 0.89 |
Flip |
76.60 ± 0.49 |
82.09 ± 0.45 |
83.91 ± 0.49 |
85.46 ± 0.38 |
86.11 ± 0.34 |
86.98 ± 0.93 |
Caltech-256
Training Images |
15 |
30 |
45 |
60 |
Original |
63.76 ± 0.41 |
67.81 ± 0.56 |
69.71 ± 0.48 |
70.84 ± 0.69 |
Flip |
63.72 ± 0.51 |
67.74 ± 0.54 |
69.65 ± 0.76 |
70.75 ± 0.59 |
2. Oxford flowers-102
flowers-102是一个用于花卉精细分类的数据库,数据库提供了Train,Validation,Test的集合。在实验过程中,直接使用(Train+Validation)进行训练,Test进行测试。
Original |
84.50 |
Flip |
85.14 |
3. Scene-15
Scene-15是一个包含15类场景的数据,实验采用的每一场景取100张图片做训练,其余的做测试。重复进行10次实验
Original |
86.87 ± 0.75 |
Flip |
87.00 ± 0.41 |
4. UC Merced Land Use Dataset
UC Merced Land Use Dataset是一个包含21类场景遥感卫星图像分类数据库(每个类别100张图片),实验采用的80训练,20测试,重复10次。
Original |
94.90 ± 0.95 |
Flip |
95.14 ± 1.05 |
5. Flickr Material
Flickr Materia是一个关于材料的数据库,包含10种不同的材料(每种100张图片),实验采用50张做训练,剩下的50张做测试,重复10次实验。数据库还提供每一张图片的Mask,本实验没有考虑Mask
Original |
64.04 ± 2.20 |
Flip |
62.96 ± 1.54 |
6. UIUC Sports
UIUC Sports是一个包含8中运动类别的数据集,实验过程中,每一个类别取100张图片做训练,其余的做测试。重复进行10次。
Original |
94.88 ± 1.02 |
Flip |
95.34 ± 0.83 |
7. MIT Scene
MIT Scene包含有67个室内场景,实验过程中,每一个类别取80张图片做训练,其余的做测试。重复进行10次。
Original |
57.30 ± 1.18 |
Flip |
57.45 ± 0.72 |
基于Pre-Train的CNN模型的图像分类实验
原文:http://www.cnblogs.com/yymn/p/4671590.html