首页 > 其他 > 详细

聚类问题及其他数据挖掘大体内容

时间:2019-06-13 00:35:54      阅读:134      评论:0      收藏:0      [点我收藏+]

聚类问题

聚类也成为集群分析,是把相似的对象通过静态分类的方式分成不同组或更多的子集,属于非监督学习。

分类问题不同的是,聚类问题的数据事先是没有标签的。

数据点之间的距离度量:

  • 欧氏距离
  • 曼哈顿距离

经典算法:K-means等

应用:

  • market research
  • 社交网络分析
  • 客户划分等

层次型聚类:

技术分享图片

在不同层面,grouping结果不同。

关联规则

emmmmmmmm,数据挖掘有个广为人知的但是不知真伪的例子:啤酒与尿布。讲的是沃尔玛经过对顾客的购买行为数据进行分析后,得出男人在买尿布的时候一般会买一些啤酒。这其实就是一关联规则的体现。

下面再举个栗子:

技术分享图片

通过对购买行为的分析,我们得到了买牛奶和面包时,一般会买黄油的结论。

回归

回归接触比较多,这里就不展开bb了,注意回归也不能要求overfitting。

 

此外还有数据可视化,数据预处理等一些方面,数据预处理是数据挖掘中最麻烦,最耗时的一步,而可视化可用的工具(软件)有很多,数据的可视化可以帮助我们合理地选择算法,提高效率。

 

聚类问题及其他数据挖掘大体内容

原文:https://www.cnblogs.com/jameschou/p/11013525.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!