SparkCore - 原理之核心编程_RDD（2）

时间：2021-02-10 13:04:55 阅读：40 评论：0 收藏：0 [点我收藏+]

1. 什么是 RDD

　　RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

　　1）弹性

　　（1）存储的弹性：内存与磁盘的自动切换；

　　（2）容错的弹性：数据丢失可以自动恢复；

　　（3）计算的弹性：计算出错重试机制；

　　（4）分片的弹性：可根据需要重新分片。

　　2）分布式：数据存储在大数据集群不同节点上

　　3）数据集：RDD 封装了计算逻辑，并不保存数据

　　4）数据抽象：RDD 是一个抽象类，需要子类具体实现

　　5）不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑

　　6）可分区、并行计算

原文：https://www.cnblogs.com/zhangxiaofan/p/14395170.html

踩

(0)

评论一句话评论（0）

分享档案

更多>