首页 > 其他 > 详细

RDD认知

时间:2018-08-25 22:13:40      阅读:160      评论:0      收藏:0      [点我收藏+]

1.RDD又叫弹性分布式数据集

2.抽象

3.带泛型,支持多种数据类型

4.集合是可以进行分区

例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3)  (4,5,6)  (7,8,9)可以并行计算(这就是分布式计算)

RDD5大特性

1.一个RDD有一系列的分区

2.对RDD执行一个操作,是对所有的分区执行相应的操作

3.一系列RDD,一个RDD依赖另一个RDD

4.对于Key-value时进行partitioner进行分区

4.数据在哪优先把作业调度到结点进行计算,移动数据不如移动计算

SparkContext&&SparkConf

1.SparkContext是主入口点,连接到Spark“集群” local standlone ,yarn,mesos

通过SParkContext来创建RDD或者来广播到集群

2.在创建SparkContext之前还需要创建SparkConf

 

RDD认知

原文:https://www.cnblogs.com/chenligeng/p/9535517.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!