对监督学习和非监督学习的理解

时间：2019-12-14 22:46:17 阅读：105 评论：0 收藏：0 [点我收藏+]

监督学习：通过人为地输入带有标签的训练数据集，使计算机训练得到一个较为合适的模型，对未知标签的数据进行预测。常见的监督学习算法：回归和分类。

1.回归(Regression)：通常有两个及以上变量，数据一般是连续的，通过训练集变量之间的关系得到一条模拟训练样本的曲线，对未知数据的因变量进行预测，其中包括线性回归和非线性回归。如房价与面积的问题，就是线性回归。

2.分类(Classfication): 通常用于预测某件事发生的概率，也是输入带有标签的训练集，数据一般是离散的，比如推测某人是否患有肺癌，通过样本训练，可以得到自变量(如是否有吸烟史，是否生活在雾霾地区)的权重，根据该权值可以根据危险因素预测他患肺癌的可能性。

非监督学习：由于在许多实际应用中，事先并不知道产生的数据的类别，也没有训练样本对应的类别，所以要从这些没有被标记的数据集学习分类器设计，通过数据之间的内在联系和相似性将他们分成若干类。非监督学习的方法主要有以下两类。

1.基于概率密度函数估计的直接方法：通过分解各个类别的概率密度函数，再将每个类别划分到特征空间，用贝叶斯决策方法设计分类器。

2.基于样本间相似度间接聚类方法：其中非迭代的分级聚类算法——把每一个样本都看成一个类别，给定两个样本相似度的计算方法，计算两个样本的相似度，把相似度最大的类进行合并，在计算新的类与类之间的相似度，直到把相似的所有样本合为一个类为止。

原文：https://www.cnblogs.com/feng-fengfeng/p/12041232.html

踩

(0)

评论一句话评论（0）

分享档案

更多>