首页 > 其他 > 详细

SparkCore - 原理之核心编程_RDD(2)

时间:2021-02-10 13:04:55      阅读:37      评论:0      收藏:0      [点我收藏+]

1. 什么是 RDD

  RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

  1)弹性

  (1)存储的弹性:内存与磁盘的自动切换;

  (2)容错的弹性:数据丢失可以自动恢复;

  (3)计算的弹性:计算出错重试机制;

  (4)分片的弹性:可根据需要重新分片。

  2)分布式:数据存储在大数据集群不同节点上

  3)数据集:RDD 封装了计算逻辑,并不保存数据

  4)数据抽象:RDD 是一个抽象类,需要子类具体实现

  5)不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在新的 RDD 里面封装计算逻辑

  6)可分区、并行计算

2. 核心属性

 

SparkCore - 原理之核心编程_RDD(2)

原文:https://www.cnblogs.com/zhangxiaofan/p/14395170.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!