首页 > 其他 > 详细

spark

时间:2021-06-10 12:01:05      阅读:22      评论:0      收藏:0      [点我收藏+]

分析计算

hadoop都是计算框架

spark是基于流处理,内存

Mockup

hadoop 不适合循环迭代数据流处理 IO会频繁
技术分享图片

spark,memory会快一些,并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型。
可以支持 复杂的数据挖掘算法和 图形计算算法
技术分享图片

Spark和Hadoop的根本差异是多个作业之间的数据通信问题:
Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘。

Spark Task的启动时间快。Spark采用fork线程的方式,而Hadoop采用创建新的进程的方式。

Spark只有在shuffle的时候将数据写入磁盘,而Hadoop中多个MR作业之间的数据交互都要依赖于磁盘交互

Spark的缓存机制比HDFS的缓存机制高效。

由于内存资源不够导致Job执行失败,此时,MapReduce其实是一个更好的选择,所以Spark并不能完全替代MR.

spark核心模块

技术分享图片

Spark MLlib 机器学习

spark

原文:https://www.cnblogs.com/ming-michelle/p/14869875.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!