首页 > 其他 > 详细

1 统计学习方法概论

时间:2019-08-08 16:23:23      阅读:125      评论:0      收藏:0      [点我收藏+]

统计学习



统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

 

对象


统计学习的对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

 

目的


统计学习的目的就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

 

方法


统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semisupervised learning)和强化学习(reinforcement learning)等组成。
统计学习三要素:
  1. 模型(model):所要学习的条件概率分布或决策函数。所有可能模型的集合就是假设空间(hypothesis space)
  2. 策略(strategy):从假设空间中选取最优模型的方法
  3. 算法(algorithm)指学习模型的具体计算方法,用什么样的计算方法求解最优模型
步骤:
  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

 

 监督学习


 

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。

 

问题的形式化


 

监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测(prediction)。由于在这个过程中需要训练数据集,而训练数据集往往是人工给出的,所以称为监督学习。
 
 
技术分享图片
 
 
对输入xi,一个具体的模型y=f(x)可以产生一个输出f(xi),而训练数据集中对应的输出是yi,如果这个模型有很好的预测能力,训练样本输出yi和模型输出f(xi)之间的差就应该足够小。
 

过拟合


过拟合是指学习时选择的模型所包含的参数过多,模型比较复杂,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
 
 
 
技术分享图片
 
 
 
 
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。因此在学习时要选择复杂度适当的模型,以达到使测试误差最小的学习目的。
 

正则化


正则化可以减轻过拟合现象,在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项(惩罚项)J(f)一般是模型复杂度的单调递增函数,模型越复杂,惩罚程度越大,即正则化值就越大。
正则化一般具有如下形式:
 
技术分享图片
 
其中,第1项是经验风险,第2项是正则化项, λ≥0为调整两者之间关系的系数。
正则化项可以取不同的形式。例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:
 
技术分享图片
 
正则化项也可以是参数向量的L1范数: 
 
技术分享图片
 
第1项经验风险较小的模型可能较复杂(有多个非零参数),这时第2项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀(Occam‘s razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。
 

交叉验证


 

如果给定的样本数据充足,可以将数据切分成训练集(training set)、验证集(validation set)和测试集(test set)三部分。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。

但是,在许多实际应用中数据是不充足的。为了选择好的模型,可以采用交叉验证方法。

  1. 简单交叉验证
     
    首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集(例如,70%的数据为训练集,30%的数据为测试集);然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。 
     
  2. S折交叉验证

    首先随机地将已给
    数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。该验证方法应用最多,需要验证S次。

  3. 留一交叉验证

    S折交叉验证的特殊情形是S=N,称为留一交叉验证(leave-one-out cross validation),往往在数据缺乏的情况下使用。这里,N是给定数据集的容量。 

泛化能力


学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力。

泛化误差反映了学习方法的泛化能力,是所学习到的模型的期望风险。 

 

技术分享图片

 

 

 

通过比较学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界是样本容量的函数,当样本容量增加时,泛化上界趋于0;它也是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。 
关于f的期望风险和经验风险分别是:
 
技术分享图片

经验风险是局部的,基于训练集所有样本点损失函数最小化的。是现实的,可求的,经验风险越小说明模型f(X)对训练集的拟合程度越好。

期望风险是全局的,是基于所有样本点的损失函数最小化的。是理想化的,往往不可求,用局部最优代替全局最优。这就是经验风险最小化的理论基础。

只考虑经验风险的话,会出现过拟合的现象,在经验风险函数后面加一个正则化项(惩罚项)便是结构风险

技术分享图片

结构风险在正则化部分已经详细说明。

 

 生成模型与判别模型


 

生成模型:由数据学习得到联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型:
 
技术分享图片
 
之所以叫作生成模型,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
判别模型:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
两者的区别:
  1. 生成方法可以还原出联合概率分布P(X,Y),而判别方法学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,学习的准确率更高;
  2. 生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;
  3. 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用;
  4. 判别方法直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。 

最主要的区别就是生成模型学习的是联合概率分布P(X,Y),而判别模型学习的是条件概率P(Y|X)或决策函数f(X)。

 

分类问题


 

在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。分类问题包括学习和分类两个过程。
 
技术分享图片
 
评价分类器性能的指标一般是分类准确率(accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
对于二类分类问题常用的评价指标是精确率(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP——将正类预测为正类数;
FN——将正类预测为负类数;
FP——将负类预测为正类数;
TN——将负类预测为负类数。 
精确率定义为:
 
技术分享图片
 
召回率定义为:
 
技术分享图片
 
精确率对应的总体是所认为的所有正类,而召回率对应的总体其本身就是正类。
此外,还有1F值,是精确率和召回率的调和均值,即
 
技术分享图片
 
许多统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。

标注问题


标注问题是分类问题的一个推广,又是更复杂的结构预测(structure prediction)问题的简单形式。

 

技术分享图片

 

评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率。其定义与分类模型相同。 
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。 
 

回归问题


回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

 
技术分享图片
 
 
回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解。 
 
 
 

1 统计学习方法概论

原文:https://www.cnblogs.com/xinxin86/p/11319259.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!