1. 统计学习
- 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。
- 学习就是如果一个系统能够通过执行某个过程改进它的性能,这就是学习。
- 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
- 统计学习的目的就是考虑学习什么样的模型和如何学习模型, 以使模型能对书籍进行准确的预测与分析。
- 统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、和强化学习(reinforcement learning)等组成。
- 从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据独立同分布,同一假设空间;应用某个评价标准,从假设空间中选取一个最优的模型。
- 三要素: 模型(model)、策略(strategy)、和算法(algorithm)
- 统计学习方法步骤:
1). 得到一个有限的训练数据集合;
2). 确定包含所有可能的模型的假设空间,即学习模型的集合;
3). 确定模型选择的准则,即学习的策略;
4). 实现求解最优模型的算法,即学习的算法;
5). 通过学习方法选择最优模型;
6). 利用学习的最优模型对新数据进行预测或分析。
2. 监督学习
- 任务: 学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测.
- 根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
- 输入即训练集通常表示为;
其中,表示实例的特征向量, 表示第i个输入变量的第 j个特征.
- 输入(出)空间: 输入(出)所有可能取值的集合,其中输入与输出对又称为样本。
- 监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数。训练数据域测试数据被看做是依联合概率分布P(X,Y)独立同分布产生的。X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设.
- 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。而模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space), 假设空间的确定意味着学习范围的确定.
- 监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作P(x|y) 或 y=f(x)
- 监督学习分为学习和预测两个过程,由学习系统与预测系统完成,如图
3. 统计学习三要素(模型、策略、算法)
(1). 模型
待续...
笔记来源于《统计学习方法》—李航著
参考:http://blog.csdn.net/qll125596718/article/details/8351337
一. 统计学习方法概率,布布扣,bubuko.com
一. 统计学习方法概率
原文:http://www.cnblogs.com/gavinhan/p/3848244.html