机器学习基础笔记-lecture3,4

时间：2016-03-16 00:58:26 阅读：151 评论：0 收藏：0 [点我收藏+]

Lecture3 机器学习分类

1.根据输出空间分类

A：分类：二分类、多分类

B：回归分析，输出为某个实数空间，例如股票价格，气温预测等问，统计学里面比较常用

C：结构学习，输出是一个结构，如句子中每个单词的词性，在语音分析中比较常见

2.根据输入样本数据的标签（label）分类

A：监督学习，样本中全部含有

B：半监督学习，部分样本有label，部分没有label，很难获取所有样本的label，或样本label获取代价比较大，人脸识别，医药检测用的多

C：非监督学习，样本没有label

D：增强学习(reinforcement learning)，通过隐含信息学习，通常“惩罚”不好的结果，“奖励”好的结果来优化学习结果。在广告系统，扑克、棋牌游戏使用较多

3.根据协议（学习方式）来分类

A：批量学习（batch learning），利用所有的已知训练数据来学习

B：在线学习（online learning），通过序列化的接受数据来学习，逐步增加性能。垃圾邮件，增强学习等应用

C：主动学习（active learning），开始只有个少量的label，通过有策略的“问问题”来提高性能，例如遇到一个问题，不知道输出是否正确，则主动询问，用户输入正确信息，从而提高性能

4.通过输入空间来分类

A：具体特征（concrete features）,特征中包含了丰富的自然含义。如硬币分类，硬币的大小（size）和质量（mass）特征对于分类有直接的帮助；信用分级客户的基本信息等

B：原始特征（raw features），简单的自然含义，需要人或机器（deep learning）将这些特征转化为具体特征。。例如例如数字识别中，原始的图片像素矩阵；声音识别中的声波信号；机器翻译中的每个单词。

C：抽象特征（abstract features），通常没有任何的真实意义，需要人为的进行特征转化、抽取、组织。例如预测用户对电影的评分，原始数据用户的id和电影的id和评分rating。这里的userid，itemid对任务学习没有任何直接的帮助，需要对数据进一步处理、提炼。

根据上面的内容能帮助从实际问题，提炼出一个机器学习的方法：

binary classification from a batch of supervised data with concrete features