决策就是对于一个问题,有多个答案,选择答案的过程就是决策。
C4.5算法是用于产生决策树的算法,主要用于分类。
C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)。
C4.5选择最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率。
信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类。
临床决策、生产制造、文档分析、生物信息学、空间数据建模等
K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心。
1.随机选取K个点为分类中心点。
2.将每个点分配到最近的类,这样形成了K个类。
3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点,那么新的中心点就是这10个点的中心点,一种简单的方式就是取平均值。
图片分割,分析商品相似度进而归类商品,分析公司的客户分类以使用不同的商业策略
Classification And Regression Tree,中文叫分类回归树,即可以做分类也可以做回归。
CART分类树
与C4.5算法类似,只是属性选择的指标是基尼系数。
基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低。
分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。
CART 回归树
采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征。
信息失真识别,电信业潜在客户识别,预测贷款风险等等
简单的说,多个弱分类器训练成为一个强分类器。
将一系列的弱分类器以不同的权重比组合作为最终分类选择。
广泛应用于人脸检测、目标识别等领域
Support Vector Machine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM 是有监督的学习模型。
有监督学习:即在已有类别标签的情况下,将样本数据进行分类。
无监督学习:即在无类别标签的情况下,样本数据根据一定的方法进行分类,即聚类,分类好的类别需要进一步分析后,从而得知每个类别的特点。
找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。
硬间隔:数据是线性分布的情况,直接给出分类。
软间隔:允许一定量的样本分类错误。
核函数:非线性分布的数据映射为线性分布的数据。
遥感图像分类,污水处理过程运行状态监控等
EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法,也是聚类算法的一种。
EM和K-Means的区别:
(1)EM是计算概率,KMeans是计算距离。
(2)EM属于软聚类,同一样本可能属于多个类别;而K-Means属于硬聚类,一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据。
先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数。
参数估计,计算机视觉的数据集聚
关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系。
1.支持度
某个商品组合出现的次数与总次数之间的比例。
5次购买,4次买了牛奶,牛奶的支持度为4/5=0.8。
5次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0.6。
2.置信度
购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少。
买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0.5。
买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3-0.67。
3.提升度
衡量商品A的出现,对商品B的出现 概率提升的程度。
提升度(A->B)=置信度(A->B)/支持度(B)。
提升度>1,有提升;提升度=1,无变化;提升度<1,下降。
4.频繁项集
项集:可以是单个商品,也可以是商品组合。
频繁项集是支持度大于最小支持度(Min Support)的项集。
消费市场价格分析,入侵检测,移动通信领域
当一篇论文被引用的次数越多,证明这篇论文的影响力越大。
一个网页的入口越多,入链越优质,网页的质量越高。
网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和
页面排序
朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类。
假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。
P(A):先验概率,即在B事件发生之前,对A事件概率的一个判断。
P(B|A):条件概率,事件 B 在另外一个事件 A 已经发生条件下的发生概率。
P(A|B):后验概率,即在B事件发生之后,对A事件概率的重新评估。
垃圾邮件过滤,文本分类,新闻分类,Query分类,商品分类等
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。
客户流失预测、欺诈侦测等(更适合于稀有事件的分类问题)
原文:https://www.cnblogs.com/stw123/p/14486619.html