1 统计学习方法概论

时间：2019-08-08 16:23:23 阅读：127 评论：0 收藏：0 [点我收藏+]

统计学习

统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

对象

统计学习的对象是数据。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。

目的

统计学习的目的就是考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也要考虑尽可能地提高学习效率。

方法

统计学习由监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semisupervised learning）和强化学习（reinforcement learning）等组成。

统计学习三要素：

模型（model）：所要学习的条件概率分布或决策函数。所有可能模型的集合就是假设空间（hypothesis space）
策略（strategy）：从假设空间中选取最优模型的方法
算法（algorithm）指学习模型的具体计算方法，用什么样的计算方法求解最优模型

步骤：

得到一个有限的训练数据集合；
确定包含所有可能的模型的假设空间，即学习模型的集合；
确定模型选择的准则，即学习的策略；
实现求解最优模型的算法，即学习的算法；
通过学习方法选择最优模型；
利用学习的最优模型对新数据进行预测或分析。

监督学习

监督学习（supervised learning）的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数，或分布密度函数。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。

问题的形式化

监督学习利用训练数据集学习一个模型，再用模型对测试样本集进行预测（prediction）。由于在这个过程中需要训练数据集，而训练数据集往往是人工给出的，所以称为监督学习。

对输入x_i，一个具体的模型y＝f(x)可以产生一个输出f(x_i)，而训练数据集中对应的输出是y_i，如果这个模型有很好的预测能力，训练样本输出y_i和模型输出f(x_i)之间的差就应该足够小。

过拟合

过拟合是指学习时选择的模型所包含的参数过多，模型比较复杂，以致于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。因此在学习时要选择复杂度适当的模型，以达到使测试误差最小的学习目的。

正则化

正则化可以减轻过拟合现象，在经验风险上加一个正则化项（regularizer）或罚项(penalty term)。正则化项（惩罚项）J（f）一般是模型复杂度的单调递增函数，模型越复杂，惩罚程度越大，即正则化值就越大。

正则化一般具有如下形式：

其中，第1项是经验风险，第2项是正则化项， λ≥0为调整两者之间关系的系数。

正则化项可以取不同的形式。例如，回归问题中，损失函数是平方损失，正则化项可以是参数向量的L₂范数：

正则化项也可以是参数向量的L₁范数：

第1项经验风险较小的模型可能较复杂（有多个非零参数），这时第2项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

正则化符合奥卡姆剃刀（Occam‘s razor）原理。奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。

交叉验证

如果给定的样本数据充足，可以将数据切分成训练集（training set）、验证集（validation set）和测试集（test set）三部分。训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。由于验证集有足够多的数据，用它对模型进行选择也是有效的。

但是，在许多实际应用中数据是不充足的。为了选择好的模型，可以采用交叉验证方法。

简单交叉验证

首先随机地将已给数据分为两部分，一部分作为训练集，另一部分作为测试集（例如，70%的数据为训练集，30%的数据为测试集）；然后用训练集在各种条件下（例如，不同的参数个数）训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型。
S折交叉验证

首先随机地将已给数据切分为S个互不相交的大小相同的子集；然后利用S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S种选择重复进行；最后选出S次评测中平均测试误差最小的模型。该验证方法应用最多，需要验证S次。
留一交叉验证

S折交叉验证的特殊情形是S＝N，称为留一交叉验证（leave-one-out cross validation），往往在数据缺乏的情况下使用。这里，N是给定数据集的容量。