通过spark-shell实现聚类算法

时间：2015-06-23 11:33:55 阅读：197 评论：0 收藏：0 [点我收藏+]

spark版本 1.3.1

scala版本 2.11.6

参考官网 http://spark.apache.org/docs/latest/mllib-clustering.html

运行spark-shell后,首先导入需要的模块

import org.apache.spark.mllib.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

// Load and parse the data

val data = sc.textFile("/home/hadoop/hadoopdata/data3.txt") //每行一个样本, 样本的特征用空格分开

val parsedData = data.map(s => Vectors.dense(s.split(‘ ‘).map(_.toDouble))).cache()

val clusters = KMeans.train(parsedData, numClusters, numIterations, parallRunNums) //其中后三个要替换成自己设置的数字

//聚类中心

val clusterCenters=clusters.clusterCenters

//聚类结果标签

val labels=clusters.predict(parsedData)

//保存结果

labels.saveAsTextFile("/home/hadoop/hadoopdata/result3") //结果保存在result3这个文件夹中

原文：http://www.cnblogs.com/yanghadoop/p/4594795.html

踩

(0)

评论一句话评论（0）

分享档案

更多>