Spark-Mllib(一)数据类型

时间：2016-03-28 23:30:27 阅读：565 评论：0 收藏：0 [点我收藏+]

一.本地向量

　　有如下几个类: Vector(基类),DenseVector,SparseVector,Vectors(工厂方法,推荐用)

工厂模式是：定义一个用于创建对象的接口，让子类决定实例化哪一个类，使一个类的实例化延迟到子类

import org.apache.spark.mllib.linalg.{Vectors,Vector} # linalg is short for linear algebra

val v1=Vectors.dense(1.0,2.0,3.0) #定义1

val v2 =Vectors.sparse(3,(1,2),(10,100)) #长度为3,第１,2个位置的值为10和100

val v3=Vectors.sparse(3,Seq((1,10),(2,100))) #结果同上

二.带有标签的向量

　　主要应用在有监督学习中，二分类(0,1),多分类(0,1,2,3,....)

import org.apache.spark.mllib.Regression.LabeledPoint;

val vl1=LabeledPoint(1,Vectors.dense(1,2,3,4))

val vl2=LabeledPoint(0,Vectors.sparse(3,(1,2),(10,100)))

原文：http://www.cnblogs.com/tuitui1989/p/5331113.html

踩

(0)

评论一句话评论（0）

分享档案

更多>