机器学习常用模型

时间：2019-05-12 20:12:34 阅读：164 评论：0 收藏：0 [点我收藏+]

线性回归
决策树
人工神经网络
聚类分析
关联规则

线性回归(Linear Regression)

连续变量

损失函数(似然函数)

预测函数和实际值误差的平方尽可能小
\[J(\theta)=\frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h(x_i)-y_i)^2\]

批梯度下降(batch Gradient descent，遍历所有数据集求误差和)

梯度方向是损失函数下降最快的方向（函数的偏导数），找到局部最优解，直到函数收敛
局部最小值的梯度是0，所以接近局部最小值时梯度会变小
技术分享图片

随机梯度下降(Gradient descent)

对大数据集会快很多

局部加权线性回归

对曲线上的每一点进行拟合估计，追踪非线性的曲线

逻辑回归（Logistic Regression, LR）

Sigmoid函数，取值在01之间
\[g(z)=\frac{1}{1+e^{-z}}，g^\prime=g(1-g)\]

支持向量机（Support Vector Machine,SVM）

\[w^Tx+b=0\]
找到超平面将数据分开，并使得正负样本到该超平面的距离最大化。对于距离超平面很近，容易被误分类的点，尽可能让这些点远离超平面。

主成分分析(Principal Component Analysis,PCA)

减少分析特征的同时，尽量减少原指标包含信息的缺失，以达到降维的目的。最大方差理论

决策树分类(Iterative Dichotomiser 3，迭代二叉树3代，ID3)

ID3算法基于信息熵来选择最佳测试属性,在决策树的各级节点上都用信息增益作为判断标准进行属性的选择。

信息熵，信息增益

信息熵就是信息的期望值，分类后的信息熵越小，则信息增益越大，信息的纯度越高，包含的类别越少
\[信息 I=-\log_2 p(x_i) \]
\[信息熵, H=-\sum_{i=1}^np(x_i)\log_2 p(x_i) \]
\[信息增益是分类前的信息熵减去分类后的信息熵\]

人工神经网络(Artificial Neural Networks,ANN)

模拟生物神经网络对信息进行处理的数学模型

BP神经网络(Back Propagation,BP)

BP的学习过程由信号的正向传播和误差的逆向传播2部分组成，若输出的节点未能得到期望的输出，则将误差传回输入层，作为修改各单元权值的依据。用误差函数E判断误差是否小于上限，不小于则更新权值，更新算法为学习规则

反向传播

反向传播的而远离就是利用梯度下降法，找到代价函数的最小值

聚类分析，K-Means聚类

非监督学习，对样本分成n个簇群，簇内足够相似，不同簇之间差异足够大

距离度量

度量样本之间的相似性用欧几里得距离
\[欧几里得距离,d(i,j)=\sqrt[]{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+...+(x_{ip}-x_{jp})^2}\]
\[曼哈顿距离,d(i,j)=|x_{i1}-x_{j1}|+|x_{i2}-x_{j2}|+...+|x_{ip}-x_{jp}|\]
\[闵可夫斯基距离,d(i,j)=\sqrt[q]{(|x_{i1}-x_{j1}|)^q+(|x_{i2}-x_{j2}|)^q+...+(|x_{ip}-x_{jp}|)^q}\]
对于闵可夫斯基距离，q=1是欧几里得距离，q=2是曼哈顿距离

关联规则

购物篮分析，在一个数据集中找出各项之间的关联关系

Apriori算法

在大数据集上进行关联规则的提取，通过连接产生候选项和其支持度，然后通过剪枝生成频繁项集

支持度和置信度

项集A和B同时发生的概率称为关联规则的支持度
\[Suppont(A=>B)=P(A \cup B)\]
项集A发生，则项集B发生的概率称为关联规则的置信度
\[Confidence(A=>B)=P(\frac{B}{A})\]

最小支持度和最小置信度

分别表示项目集在统计意义上的最低重要性，最低可靠性。同时满足最小支持度和最小置信度的规则称为强规则

算法的复杂度

对于有N件物品的数据集，共有\(2^N-1\)种项集组合

频繁项集

如果项集I的相对支持度满足预定义的最小支持阀度，则I是频繁项集

剪枝原理

如果某个项集是频繁项集，那么它的所有子集也是频繁的

算法实现过程

连接步：循环找到K项集和最大频繁项集
剪枝步：根据Apirori的性质，频繁项集的所有非空子集也是频繁项集，剪枝

机器学习常用模型

原文：https://www.cnblogs.com/wanli002/p/10853333.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

机器学习常用模型

线性回归(Linear Regression)

损失函数(似然函数)

批梯度下降(batch Gradient descent，遍历所有数据集求误差和)

随机梯度下降(Gradient descent)

局部加权线性回归

逻辑回归（Logistic Regression, LR）

支持向量机（Support Vector Machine,SVM）

主成分分析(Principal Component Analysis,PCA)

决策树分类(Iterative Dichotomiser 3，迭代二叉树3代，ID3)

信息熵，信息增益

人工神经网络(Artificial Neural Networks,ANN)

BP神经网络(Back Propagation,BP)

反向传播

聚类分析，K-Means聚类

距离度量

关联规则

Apriori算法

支持度和置信度

最小支持度和最小置信度

算法的复杂度

频繁项集

剪枝原理

算法实现过程

批梯度下降(batch Gradient descent，遍历所有数据集求误差和)

决策树分类(Iterative Dichotomiser 3，迭代二叉树3代，ID3)