首页 > 其他 > 详细

业界常用数据集

时间:2020-07-21 00:02:33      阅读:67      评论:0      收藏:0      [点我收藏+]

mnist手写数字体:http://yann.lecun.com/exdb/mnist/ (28*28*1,60000train,10000test)

cifar-10数据集:http://www.cs.toronto.edu/~kriz/cifar.html (32*32*3,50000train,10000test)
10类物品:飞机,汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车
data_batch1~5是划分好的训练数据,每个文件中包含10000张图像,test_batch测试集数据,10000张图像;

cifar-100数据集:60000张32*32*3,分为20大类,每大类5小类,共100小类,一个小类600张图像,500train,100test

 

图像数据集:

1. 图像(JPG文件)数据集转化为二进制文件(或者gz文件)操作步骤,其中涉及到numpy,os,Image,尤其numpy和tensorflow的结合使用,制作数据集时源数据是按标签顺序排列的,需要将图像打乱n次,以增强其泛化能力;

2.学习经典的手写数字数据集读取脚本(可以运用在其他数据集读取中),从二进制文件中获取矩阵形式的图片数据以及标签矩阵,通过flat操作将原有的密集的标签向量转化为稀疏的标签矩阵,进行one_hot编码,以增强可读性;注意:在神经网络的数据集读取代码中调用read_data_sets()函数时必须制定参数one_hot=True;

3.dng数据格式(遵循TIFF6.0格式结构,统一不同厂商的raw格式,原始图像,有IFH图像文件头,IFD图像文件目录,DE图像的属性这三部分组成)

业界常用数据集

原文:https://www.cnblogs.com/xiaowa/p/13347475.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!