Spark（二）

时间：2019-08-26 11:13:43 阅读：44 评论：0 收藏：0 [点我收藏+]

一、广播变量与累加器

1.广播变量机制

　　将传递给task的值，变成传递给executor。

　　为什么可以共用，因为task是executor下的线程。

　　只读的变量，在task中不允许修改

2.累加器介绍

　　在只写的变量，在task中只允许被修改，不允许读的操作。

　　但是在driver中就只能读操作。

广播变量：>>> broadcastVar = sc.broadcast([1, 2, 3])

累加器：

>>> accum = sc.accumulator(0)

>>> sc.parallelize([1, 2, 3, 4]).foreach(lambda x : accum.add(x))

>>> accum.value

一个wordcount程序：

>>>textFile=sc.textFile(‘file:///root/app/spark-2.3.0-bin-hadoop2.6/languidcode/wordcount/word.txt‘)

>>>wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word,1)).reduceByKey(lambda a, b : a + b)

>>> wordCOunt.collect()

二、map与flatMap的区别

map与flatMap的区别

map:获取一个新元素（list原来有几个元素还是输出几个元素）

flatmap：获取一个或者多个新元素，拍扁，可乐罐所有单词都被拍出来。

flatMap（一条记录变n条（n>=0））

val rdd = sc.parallelize(List("coffee panda","happy panda","happiest panda party"))

JavaRDD<String> words = rdd.flatMap(x -> Arrays.asList(x.split(" ")) );

res8: Array[String] = Array(coffee, panda, happy, panda, happiest, panda, party)

三、dataframe创建

spark=SparkSession.builder.getOrCreate()
df=sc.textFile("file:////root/app/spark-2.3.0-bin-hadoop2.6/examples/src/main/resources/people.json")
df.show()
df.printSchema()【打印模式信息】
df.select(df.name,df.age + 1).show()【选择多列】
df.filter(df.age > 20 ).show()【条件过滤】
df.groupBy("age").count().show()【分组聚合】
df.sort(df.age.desc()).show()【排序】
df.sort(df.age.desc(), df.name.asc()).show()【多列排序】
df.select(df.name.alias("username"),df.age).show()【对列进行重命名】

Spark（二）

原文：https://www.cnblogs.com/languid/p/11411169.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)