pyspark的用法

时间：2019-03-22 23:13:08 阅读：138 评论：0 收藏：0 [点我收藏+]

pyspark -h 查看用法

pyspark -h

Usage: pyspark [options]

常见的[options] 如下表：

技术分享图片

输入pyspark -h 查看各参数的定义

技术分享图片

查看sc变量

不指定--master时
```
  pyspark
  (查看sc变量)
  sc
```

技术分享图片

指定--master时

  pyspark --master spark://node1:7077
  (查看sc变量)
  sc

技术分享图片

用pyspark开发一个WordCount程序

输入下面的代码并运行（路径根据情况修改）。

在本地创建一个文件：/home/hadoop/252/input/data.txt (hadoop是本地用户名，252表示文件名，两个值请根据情况修改)。此路径也可以换为hdfs的路径。

data.txt文件中的内容是：
```
  a good beginning is half the battle

  where there is a will there is a way
```

一行代码实现WordCount

  sc.textFile("/home/hadoop/252/input/data.txt").flatMap(lambda line: line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y).saveAsTextFile("/home/hadoop/252/output/0222")

技术分享图片

多行代码实现WordCount（单步）

  rdd1 = sc.textFile("/home/hadop/252/input/data.txt")  #延时读取数据
  rdd1.collect()  #查看结果(列表方式)

技术分享图片

rdd2 = rdd1.flatMap(lambda line: line.split(" "))  #将每句话进行分词，再整合到一个列表
rdd2.collect()  #查看结果(列表方式)

技术分享图片

rdd3 = rdd2.map(lambda word : (word,1))  #每个单词记一次数，将单词和1构成元组
rdd3.collect()  #查看结果(列表方式)

技术分享图片

rdd4 = rdd3.reduceByKey(lambda x,y:x+y)  #再将value进行累加，把相同的Key的value进行累加
rdd4.collect()  #查看结果(列表方式)

技术分享图片

rdd4.saveAsTextFile("/home/hadoop/252/output/0333")  #保存到指定目录，此目录预先不能存在

最后，输出查看目录中的内容

技术分享图片

pyspark的用法

原文：https://www.cnblogs.com/jiajiaba/p/10581878.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)