A: 分类:二分类、多分类
B: 回归分析,输出为某个实数空间,例如股票价格,气温预测等问,统计学里面比较常用
C: 结构学习,输出是一个结构,如句子中每个单词的词性,在语音分析中比较常见
A: 监督学习,样本中全部含有
B: 半监督学习,部分样本有label,部分没有label,很难获取所有样本的label,或样本label获取代价比较大,人脸识别,医药检测用的多
C: 非监督学习,样本没有label
D: 增强学习(reinforcement learning),通过隐含信息学习,通常“惩罚”不好的结果,“奖励”好的结果来优化学习结果。在广告系统,扑克、棋牌游戏使用较多
A: 批量学习(batch learning),利用所有的已知训练数据来学习
B: 在线学习(online learning),通过序列化的接受数据来学习,逐步增加性能。垃圾邮件,增强学习等应用
C: 主动学习(active learning),开始只有个少量的label,通过有策略的“问问题”来提高性能,例如遇到一个问题,不知道输出是否正确,则主动询问,用户输入正确信息,从而提高性能
A: 具体特征(concrete features),特征中包含了丰富的自然含义。如硬币分类,硬币的大小(size)和质量(mass)特征对于分类有直接的帮助;信用分级客户的基本信息等
B: 原始特征(raw features),简单的自然含义,需要人或机器(deep learning)将这些特征转化为具体特征。。例如例如数字识别中,原始的图片像素矩阵;声音识别中的声波信号;机器翻译中的每个单词。
C: 抽象特征(abstract features),通常没有任何的真实意义,需要人为的进行特征转化、抽取、组织。例如预测用户对电影的评分,原始数据用户的id和电影的id和评分rating。这里的userid,itemid对任务学习没有任何直接的帮助,需要对数据进一步处理、提炼。
根据上面的内容能帮助从实际问题,提炼出一个机器学习的方法:
binary classification from a batch of supervised data with concrete features
机器学习不是万能的,机器学习是通过学习样本D,推测样本D之外的其它的情况。如果样本D中存在任何未知的f,使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系,机器学习的方法无法保证学到类似f的关系g,所以不能使用机器学习。参考课件中的三个例子
英文描述:
learning from D (to infer something outside D)is doomed if any ‘unknown’ f canhappen.
这是一个概率统计的问题,通过计算样本的情况,估计总体的情况。
“大”罐子的弹珠的比例不好计算,通过随机抓取样本,计算样本的橙色弹珠的比例。
关于这种统计方法得出的样本结果v,总体的实际情况u,样本数量N,误差
(Hoeffding‘s inequality,霍夫丁不等式)
机器学习与上述通过样本计算弹珠比例的十分相似。
对于给定的h,样本D中(N条记录)的错误率 ,样本之外的错误率 ,也存在霍夫不等式的关系:
原文:http://www.cnblogs.com/wxquare/p/5281753.html