Spark中groupBy groupByKey reduceByKey的区别

时间：2018-01-26 19:46:22 阅读：276 评论：0 收藏：0 [点我收藏+]

groupBy

和SQL中groupby一样，只是后面必须结合聚合函数使用才可以。

例如：

hour.filter($"version".isin(version: _*)).groupBy($"version").agg(countDistinct($"id"), count($"id")).show()

groupByKey

对Key-Value形式的RDD的操作。

例如(取自link)：

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "spider", "eagle"), 2)
val b = a.keyBy(_.length)//给value加上key，key为对应string的长度
b.groupByKey.collect
//结果 Array((4,ArrayBuffer(lion)), (6,ArrayBuffer(spider)), (3,ArrayBuffer(dog, cat)), (5,ArrayBuffer(tiger, eagle)))

reduceByKey

与groupByKey功能一样，只是实现不一样。本函数会先在每个分区聚合然后再进行总的统计，如图：

技术分享图片

而groupByKey则是

技术分享图片

因此，本函数比groupByKey节省了传播的开销，尽量少用groupByKey

参考

Spark中groupBy groupByKey reduceByKey的区别

原文：https://www.cnblogs.com/wswang/p/8360755.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)