课程地址
第1章 CS231n课程介绍
---1.1 计算机视觉概述
- 这门课的主要内容是计算机视觉.它是一门需要涉及很多其他科目知识的学科.
- 视觉数据占据了互联网的绝大多数,但是它们很难利用.
---1.2 计算机视觉历史背景
- 为了获得一副3D图像,我们需要经历原始图像(端点,曲线,边缘)->2.5维草图(场景的不连续性)->3D图像几个过程.
- 70年代:每个对象由简单的几何图单位组成
- 80年代:如何识别由简单物体构成的视觉空间
- 如果目标识别太难了,应该先进行图像分割.
- 可以使用图片中的特征来进行图像识别.
- 图像特征的维度一般很高,因此算法很容易过拟合.
- ImageNet是一个很大的目标识别数据集,相关比赛往往使用top5标准来衡量.
---1.3 课程后勤
- 介绍了本门课的内容:图像识别,目标检测,风格迁移,如何从零开始构建CNN,以及tensorflow等框架的使用等.
- 深度学习流行的主要原因是计算能力的提高和数据量的增长.
第2章 图像分类
---2.1 图像分类-数据驱动方法
- 计算机存储图像的方式是二维或三维矩阵.一个物体与计算机实际看到的像素值之间的差距称为语义鸿沟.
- 一个具有鲁棒性的图像识别算法应该能从不同角度,光照条件,变形,遮挡,类内条件差异等条件下识别出物体类别.
- 边缘对于视觉识别是十分重要的.但是基于边缘的规则识别算法不是一种好方法.
- 数据驱动的分类方法是指:
- 收集具有标注的图片数据集(CIFAR10).
- 使用机器学习来训练分类器.
- 使用模型来预测新的图片.
- 最近邻(Nearest Neighbors)算法:
- 不进行训练,只是单纯地存储所有的数据集,然后对于要预测的图片,从数据集中找出与它最相似的图片的标签作为输出.
- 比较函数是最近邻算法的关键.常用的有L1距离,L2距离等.
- 训练时间很短,预测时间很长.这与我们理想中的图像识别算法相反.
- 最近邻算法很容易出现误分类,因此出现了K近邻(K-Nearest Neighbors)算法:选出K个最近点,然后进行多数投票决定输出.
---2.2 图像分类-K近邻算法
CS231n 斯坦福深度视觉识别课 学习笔记
原文:https://www.cnblogs.com/limitlessun/p/9455015.html