一提到机器学习,就不得不提李航的这本《统计学习方法》,回家这几日,把这本书的前九章看完了,因为后面两章HMM和CRF在之前就已经看过了,简单写一下自己的一点新认识。
这本书基本上是在围绕有监督来进行的,所谓有监督与无监督的区别:数学角度上来分析是是否知道P(Y|X),有监督是知道部分X对应的Y值,来构建分类器,其中又分成了这么三大部分:
1.如果X是连续的,Y也是连续的,为回归问题;
2.如果X是连续的/离散的,Y是离散的,为分类问题;
3.如果输入X与输出Y均为变量序列,则为标注问题(例如NLP中的CRF HMM等都是此类);
对于模型评定,我们通常要考虑是否过拟合/欠拟合的问题(剃刀原理): simple is good
解决过拟合问题:正则化 --简单理解就是,如果我们使用的模型很简单,结果还不错,那对应的“惩罚”就很少;
如果我们使用的模型很复杂,结果不错,那对应的惩罚就很多!
正则化的定义:在原来损失函数的基础上增加一个 X*【W】 其中X为系数,会随着模型的复杂度来变化,防止过拟合。
对于有监督的常用算法:
感知机、决策树、SVM、KNN、Logistics回归、朴素贝叶斯、HMM、CRF
对于无监督的常用算法:Kmeans DBScan (后续了解)
接下来,分别归纳一下对应监督学习方法我认为需要掌握的内容:
1.感知机
2.决策树
3.SVM
4.KNN
5.Logistics
6.朴素贝叶斯
7.HMM
8.CRF
原文:https://www.cnblogs.com/GY-Zhu/p/9495933.html