java spark转换算子groupByKey、reduceByKey、aggregateByKey

时间：2020-05-14 14:58:51 阅读：67 评论：0 收藏：0 [点我收藏+]

/**
 * # _*_ coding:utf-8 _*_
 * # Author:xiaoshubiao
 * # Time : 2020/5/14 8:33
 **/
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import scala.Tuple2;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

public class union_test {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("union_test");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<String> list = Arrays.asList("a","b","c","a");
        JavaRDD<String> parallelize = sc.parallelize(list,2);
        JavaPairRDD javaPairRDD = parallelize.mapToPair(x -> new Tuple2(x, 1));
        javaPairRDD.groupByKey().collect().forEach(x->System.out.println(x));
        // reduceBykey 没有默认值，在某个key只有一条数据的时候是不会执行该函数的，所以当前情况下“执行”只打印了一次。
        // 最终执行的结果是(b,1) (a,执行) (c,1) 并不是(b,执行) (a,执行) (c,执行)
        javaPairRDD.reduceByKey(
                new Function2<Integer, Integer, String>() {
                @Override
                public String call(Integer integer, Integer integer2) throws Exception {
                    System.out.println("执行");
                    return "执行";
                }
        },2).collect().forEach(x->System.out.println(x));


        // aggregateBykey 参数1：进行分区内计算的默认值
        // 参数2：分区内计算逻辑
        //参数3：分区间计算逻辑
        javaPairRDD.aggregateByKey(1, new Function2<Integer,Integer,Integer>() {
            @Override
            public Integer call(Integer o, Integer o2) throws Exception {
                System.out.println("分区内");
                return o+o2;
            }
        }, new Function2<Integer,Integer,Integer>() {
            @Override
            public Integer call(Integer o, Integer o2) throws Exception {
                System.out.println("分区间");
                return o+o2;
            }
        }).collect().forEach(x->System.out.println(x));

    }
}

原文：https://www.cnblogs.com/7749ha/p/12888178.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)