首页 > 其他 > 详细

RDD的理解

时间:2017-02-13 20:32:26      阅读:348      评论:0      收藏:0      [点我收藏+]

1.RDD介绍

  技术分享

  A list of partitions ====> 一个许多分区的集合,分区中包含数据
  A function for computing each split ===> 为每个分区提供一个computing的函数
  A list of dependencies on other RDDs ===> RDD会依赖其他RDDs, 这种特性叫做:lineage(生命线);特例:第一个RDD不依赖其他RDD
  Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) Key-Value的RDD存在一个分区器,默认是Hash分区器;分区器的作用类型MR中的Partitioner,决定上一个RDD中的数据到下一个RDD的时候是在那个分区中
  Optionally, a list of preferred locations to compute each split on (e.g. block locations foran HDFS file) 数据计算本地化操作,类似MR

 

2.对应的五个方法

  技术分享

 

RDD的理解

原文:http://www.cnblogs.com/juncaoit/p/6395111.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!