首页 > 其他 > 详细

Spark MLib 基本统计汇总

时间:2016-06-02 20:05:05      阅读:247      评论:0      收藏:0      [点我收藏+]

1.  概括统计 summary statistics

MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。

colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、均值、方差等等。

import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}

val observations: RDD[Vector] = ...       // define an RDD of Vectors

// Compute column summary statistics. val summary: MultivariateStatisticalSummary = Statistics.colStats(observations) println(summary.mean) // a dense vector containing the mean value for each column println(summary.variance) // column-wise variance println(summary.numNonzeros) // number of nonzeros in each column

2.  相关性

 

Spark MLib 基本统计汇总

原文:http://www.cnblogs.com/skyEva/p/5554130.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!