机器学习的思路梳理一下:机器学习的分类,分类和预测;分类这里包括线性分类,贝叶斯分类,决策树分类,adaboost几种;线性分了本质是根据样本来推测系数(权重,weight),基于损失函数,
不断地调整系数以实现损失函数值最小,说的了损失函数,我们就来讨论一下有哪几类损失函数,这里包括sigmod,Gradent,对数;怎么来求解呢?一般采用Gradent,梯度下降的方式来进行求解。但是这里
注意了,每种损失函数都是尤其特定的使用场景的,介绍如下。
svm的分类方式和其他的不太一样,不再是求权重,而是求一个最大宽度,这个最大宽度则是基于SMO算法来求解而得,svm里面采用了拉格朗日的对偶的算法,这个可以介绍如下。
贝叶斯分类方式则是基于概率1角度来计算每种分类的可能性,这个和其他的分类方式又有些不同,贝叶斯求解需要获取先验概率,然后才能够获知后验概率。他的隐喻就是开始的时候知道的局部概率,然后
根据局部概率推断出全局概率。
决策树分类方式则是基于特征熵的原理来搞的;总是选择熵值最小的那个列来进行分类,决策树理论认为熵值最高的那一列的区分度是最高的。
关于Adaboost,和其他几个不同,其他几个都是单一分类器,aboost则是集成分类器,他是汇聚多个弱分类器,然后根据训练阶段每个分类器的学习的效果。
因为我们分类搞着搞着,就会面临过拟合问题,这里牵涉到了岭回归。L1,L2都是啥?
那么我们再来聊一聊如何来评估机器学习,ROC,混淆矩阵等,还有那个validate+train曲线都是啥。
下面讲一下特征工程,这个也会统计学类最重要的内容:
原文:https://www.cnblogs.com/xiashiwendao/p/10716594.html