首页 > 其他 > 详细

机器学习基础笔记-lecture3,4

时间:2016-03-16 00:58:26      阅读:151      评论:0      收藏:0      [点我收藏+]

Lecture3 机器学习分类

1.根据输出空间分类

A: 分类:二分类、多分类

B: 回归分析,输出为某个实数空间,例如股票价格,气温预测等问,统计学里面比较常用

C: 结构学习,输出是一个结构,如句子中每个单词的词性,在语音分析中比较常见

2.根据输入样本数据的标签(label)分类

A: 监督学习,样本中全部含有

B: 半监督学习,部分样本有label,部分没有label,很难获取所有样本的label,或样本label获取代价比较大,人脸识别,医药检测用的多

C: 非监督学习,样本没有label

D: 增强学习(reinforcement learning),通过隐含信息学习,通常“惩罚”不好的结果,“奖励”好的结果来优化学习结果。在广告系统,扑克、棋牌游戏使用较多

3.根据协议(学习方式)来分类

A: 批量学习(batch learning),利用所有的已知训练数据来学习

B: 在线学习(online learning),通过序列化的接受数据来学习,逐步增加性能。垃圾邮件,增强学习等应用

C: 主动学习(active learning),开始只有个少量的label,通过有策略的“问问题”来提高性能,例如遇到一个问题,不知道输出是否正确,则主动询问,用户输入正确信息,从而提高性能

4.通过输入空间来分类

A: 具体特征(concrete features),特征中包含了丰富的自然含义。如硬币分类,硬币的大小(size)和质量(mass)特征对于分类有直接的帮助;信用分级客户的基本信息等

B: 原始特征(raw features),简单的自然含义,需要人或机器(deep learning)将这些特征转化为具体特征。。例如例如数字识别中,原始的图片像素矩阵;声音识别中的声波信号;机器翻译中的每个单词。

C: 抽象特征(abstract features),通常没有任何的真实意义,需要人为的进行特征转化、抽取、组织。例如预测用户对电影的评分,原始数据用户的id和电影的id和评分rating。这里的userid,itemid对任务学习没有任何直接的帮助,需要对数据进一步处理、提炼。

根据上面的内容能帮助从实际问题,提炼出一个机器学习的方法:

binary classification from a batch of supervised data with concrete features

 

Lecture4 机器学习的可行性

一、No free lunch

机器学习不是万能的,机器学习是通过学习样本D,推测样本D之外的其它的情况。如果样本D中存在任何未知的f,使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系,机器学习的方法无法保证学到类似f的关系g,所以不能使用机器学习。参考课件中的三个例子

英文描述:

learning from D (to infer something outside D)is doomed if any ‘unknown’ f canhappen.

 

二、如何计算大罐子中橙色弹珠的比例?

这是一个概率统计的问题,通过计算样本的情况,估计总体的情况。

“大”罐子的弹珠的比例不好计算,通过随机抓取样本,计算样本的橙色弹珠的比例。

关于这种统计方法得出的样本结果v,总体的实际情况u,样本数量N,误差技术分享

技术分享 (Hoeffding‘s inequality,霍夫丁不等式)

三、罐子理论和机器学习时间的关系

机器学习与上述通过样本计算弹珠比例的十分相似。

对于给定的h,样本D中(N条记录)的错误率技术分享 ,样本之外的错误率 技术分享,也存在霍夫不等式的关系:

技术分享

也就是说技术分享

 

四、统计学习的流程

技术分享

机器学习基础笔记-lecture3,4

原文:http://www.cnblogs.com/wxquare/p/5281753.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!