主要关注确定一个唯一的因变量和一个或多个数值型的自变量
广义线性回归:逻辑回归、泊松回归
简单的线性回归:形如y=ax+b
先确定向下一步的步伐大小,称之learning rate
任意给定一个初始值
确定一个向下的方向,并向下走预先规定的步伐,并更新
当下降的高度小于某个定义的值,则停止下降
大多数现实世界的分析不止一个自变量,大多数情况下,很有可能使用多元线性回归
相关系数
两个变量之间的相关系数是一个数,它表示两个变量服从一条直线的关系有多么紧密
基于贝叶斯定理的条件概率
P(A|B) = P(A)*P(B|A)/P(B)
朴素贝叶斯
Kmeans聚类算法:K均值聚类
聚类:给事物打标签,寻找同一组内的个体之间的一些潜在的相似模式,力图找到数据的自然分组kmeans
聚类是一种无监督的机器学习任务,它可以自动将数据划分成类cluster
聚类是用于知识发现而不是预测
聚类原则是一个组内的记录彼此必须非常相似,而与该组之外的记录截然不同。所有聚类做的就是遍历所有数据然后找到这些相似性
使用距离来分配和更新类
探究距离测度
欧氏距离测度
平方欧氏距离测度
曼哈顿距离测度
余弦距离测度
谷本距离测度
同时表现夹角和距离的距离测度
加权距离测度
选择适当的聚类数
肘部法
kmeans算法思想
以空间中K个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直到得到最好的聚类结果。
总结
流程
适当选择c个类的初识中心
在第K次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的中心所在的类
利用均值等方法更新该类的中心值
对于多有的C个聚类中心,如果利用2,3的迭代法更新后,值保持不变,则迭代结束,否则继续迭代
缺陷
聚类中心的个数K需要事先给定,实际中K值不好估计
需要人为的确定初始聚类中心,不同的初识聚类中心可能导致完全不同的聚类结果
选中心点的方法
从输入的数据点集合中随机选择一个点作为第一个聚类中心
对于数据集中的每一个点x,计算它与最近聚类中(指的是已选择的聚类中心)的距离D(x)
选择一个新的数据点作为新的聚类中心,选择的原则是D(x)较大的点,被选取作为聚类中心的概率较大
重复2和3直到K个聚类中心被选出来
利用这K个初识的聚类中心来运行标准的k-means算法
关联规则
支持度:一个项集或者规则度量法的支持度是指其在数据中心出现的频率
置信度:值该规则的预测能力或者准确度的度量
Aptiori算法
原则:一个频繁项集的所有子集也必须是频繁的
Apriori算法利用这个逻辑在实际评估他们之间的关联规则
两个阶段
识别所有满足最小支持度阈值的项集
根据满足最小支持度阈值的这些项集来创建规则
逻辑回归是一种线性有监督分类模型
是一种用于分类的模型,就相当于y=f(x),标明输入与输出的关系
公式:
确定w的过程,就是训练过程,spark的mllib已经做好了封装,只需调用即可
流程
获得历史数据
训练模型
得到模型
预测新数据
获得类别1或者0
特殊情况
线性不可分
解决方案:映射至高维
梯度下降法
鲁棒性调优
决策树
一个预测与分类模型,它代表的是对象属性与对象值之间的一种映射关系
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类型
思想:实际上就是寻找最纯净的划分方法
决策树是一种非线性有监督分类模型
决策树是通过固定的条件来对类别进行判断的
生成:数据不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一边,当树的叶子节点的数据都是一类的时候,则停止分类
决策树核心思想
在一个数据集中找到一个最优特征根据这个最优值将数据集分为两个或多个子数据集,然后递归上述操作,直到满足指定条件为止
目的:利用数据的一些规则来尽可能的降低数据集的不确定性,也就是给定一些特征来降低数据的不确定性
评判标准
每一个叶子里面的类别尽可能一致
信息熵
条件熵
决策树的缺点
运算量大,需要一次加载所有数据进内存。并且找寻分割条件是一个极耗资源的工作
训练样本中出现异常数据时,将会对决策树产生很大影响。抗干扰能力差
解决方法
减少决策树所需训练样本
随机采样,降低异常数据的影响
随机森林
一种非线性有监督分类模型
由树组成
随机:生成树的数据都是从数据集中随机选取的
与逻辑回归的比较
是硬分类、非线性模型、输出无概率意义、抗干扰能力弱
而逻辑回归是软分类、线性模型、输出有概率意义、抗干扰能力强
原文:https://www.cnblogs.com/ruanjianwei/p/12133673.html