首页 > 编程语言 > 详细

数据算法 --hadoop/spark数据处理技巧 --（11.K-均值聚类 12. k-近邻）

时间：2019-08-21 11:57:00 阅读：168 评论：0 收藏：0 [点我收藏+]

十一。k-均值聚类

　　这个需要MR迭代多次。

　　开始时，会选择K个点作为簇中心，这些点成为簇质心。可以选择很多方法啦初始化质心，其中一种方法是从n个点的样本中随机选择K个点。一旦选择了K个初始的簇质心，下面可以计算输入集合中各个点到这个k个中心点的距离，然后将各个点分配到与他距离最近的簇中心。所有对象都分配之后，在重新计算k个质心的位置。反复迭代，知道簇质心不变（或者变化非常小。）

　　算法代码：

　　　　技术分享图片

　　　　技术分享图片

　　　MR的实现步骤：

　　　　技术分享图片

　　　　技术分享图片

　　　技术分享图片

　　技术分享图片

　　

　　Spark由ML库，可以直接调用方法：

　　　　技术分享图片

十二。 KNN

　　技术分享图片

　　

　　spark的大致步骤：

　　　　1.导入所需的类和接口

　　　　2.处理输入参数

　　　　3.创建一个Spark上下文对象。

　　　　4.广播共享对象

　　　　5.未查询和训练数据集创建RDD

　　　　6.计算（R,S）的笛卡儿积　

　　　　7.找出R中的r与S中的s之家的距离distance(r,s)

　　　　8.按R中的r对距离分组

　　　　9.找出k个近邻并对r分类。

　　

数据算法 --hadoop/spark数据处理技巧 --（11.K-均值聚类 12. k-近邻）

原文：https://www.cnblogs.com/dhName/p/11387564.html

踩

(1)

赞

(1)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！