数据挖掘十大经典算法

时间：2021-03-05 15:58:19 阅读：28 评论：0 收藏：0 [点我收藏+]

一、C4.5（决策树）

决策就是对于一个问题，有多个答案，选择答案的过程就是决策。

C4.5算法是用于产生决策树的算法，主要用于分类。

C4.5使用信息增益率做计算（ID3算法使用信息增益做计算）。

原理

C4.5选择最有效的方式对样本集进行分裂，分裂规则是分析所有属性的信息增益率。

信息增益率越大，意味着这个特征分类的能力越强，我们就要优先选择这个特征做分类。

适用场景

临床决策、生产制造、文档分析、生物信息学、空间数据建模等

二、K-Means（聚类）

K-means是一个聚类算法，是无监督学习，生成指定K个类，把每个对象分配给距离最近的聚类中心。

原理

1.随机选取K个点为分类中心点。

2.将每个点分配到最近的类，这样形成了K个类。

3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点，那么新的中心点就是这10个点的中心点，一种简单的方式就是取平均值。

适用场景

图片分割，分析商品相似度进而归类商品，分析公司的客户分类以使用不同的商业策略

三、CART算法

Classification And Regression Tree，中文叫分类回归树，即可以做分类也可以做回归。

原理

CART分类树

与C4.5算法类似，只是属性选择的指标是基尼系数。

基尼系数反应了样本的不确定度，基尼系数越小，说明样本之间的差异性小，不确定程度低。

分类是一个不确定度降低的过程，CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。

CART 回归树

采用均方误差或绝对值误差为标准，选取均方误差或绝对值误差最小的特征。

适用场景

信息失真识别，电信业潜在客户识别，预测贷款风险等等

四、Adaboost

原理

简单的说，多个弱分类器训练成为一个强分类器。

将一系列的弱分类器以不同的权重比组合作为最终分类选择。

适用范围

广泛应用于人脸检测、目标识别等领域

五、SVM算法

Support Vector Machine，中文名为支持向量机，是常见的一种分类方法，最初是为二分类问题设计的，在机器学习中，SVM 是有监督的学习模型。

有监督学习：即在已有类别标签的情况下，将样本数据进行分类。

无监督学习：即在无类别标签的情况下，样本数据根据一定的方法进行分类，即聚类，分类好的类别需要进一步分析后，从而得知每个类别的特点。

原理

找到具有最小间隔的样本点，然后拟合出一个到这些样本点距离和最大的线段/平面。

硬间隔：数据是线性分布的情况，直接给出分类。

软间隔：允许一定量的样本分类错误。

核函数：非线性分布的数据映射为线性分布的数据。

适用范围

遥感图像分类，污水处理过程运行状态监控等

六、EM算法

EM 的英文是 Expectation Maximization，所以 EM 算法也叫最大期望算法，也是聚类算法的一种。

EM和K-Means的区别：

（1）EM是计算概率，KMeans是计算距离。

（2）EM属于软聚类，同一样本可能属于多个类别；而K-Means属于硬聚类，一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据。

原理

先估计一个大概率的可能参数，然后再根据数据不断地进行调整，直到找到最终的确认参数。

适用范围

参数估计，计算机视觉的数据集聚

七、Apriori算法

关联关系挖掘，从消费者交易记录中发掘商品与商品之间的关联关系。

原理

1.支持度

某个商品组合出现的次数与总次数之间的比例。

5次购买，4次买了牛奶，牛奶的支持度为4/5=0.8。

5次购买，3次买了牛奶+面包，牛奶+面包的支持度为3/5=0.6。

2.置信度

购买了商品A，有多大概率购买商品B，A发生的情况下B发生的概率是多少。

买了4次牛奶，其中2次买了啤酒，(牛奶->啤酒)的置信度为2/4=0.5。

买了3次啤酒，其中2次买了牛奶，(啤酒->牛奶)的置信度为2/3-0.67。

3.提升度

衡量商品A的出现，对商品B的出现概率提升的程度。

提升度(A->B)=置信度(A->B)/支持度(B)。

提升度>1，有提升；提升度=1，无变化；提升度<1，下降。

4.频繁项集

项集：可以是单个商品，也可以是商品组合。

频繁项集是支持度大于最小支持度（Min Support）的项集。

适用范围

消费市场价格分析，入侵检测，移动通信领域

八、PageRank算法

当一篇论文被引用的次数越多，证明这篇论文的影响力越大。

一个网页的入口越多，入链越优质，网页的质量越高。

原理

网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

一个网页的影响力：所有入链的页面的加权影响力之和。
一个网页对其他网页的影响力贡献为：自身影响力/出链数量。
用户并不都是按照跳转链接的方式来上网，还有其他的方式，比如直接输入网址访问。
所以需要设定阻尼因子，代表了用户按照跳转链接来上网的概率。

适用范围

页面排序

九、朴素贝叶斯（条件概率）

朴素贝叶斯是一种简单有效的常用分类算法，计算未知物体出现的条件下各个类别出现的概率，取概率最大的分类。

原理

假设输入的不同特征之间是独立的，基于概率论原理，通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。

P(A)：先验概率，即在B事件发生之前，对A事件概率的一个判断。

P(B|A)：条件概率，事件 B 在另外一个事件 A 已经发生条件下的发生概率。

P(A|B)：后验概率，即在B事件发生之后，对A事件概率的重新评估。

适用范围

垃圾邮件过滤，文本分类，新闻分类，Query分类，商品分类等

十、KNN（聚类）

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

原理

计算待分类物体与其他物体之间的距离，对于K个最近的邻居，所占数量最多的类别，预测为该分类对象的类别。

适用范围

客户流失预测、欺诈侦测等（更适合于稀有事件的分类问题）

数据挖掘十大经典算法

原文：https://www.cnblogs.com/stw123/p/14486619.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)