spark sql 常用语句

时间：2019-08-30 16:16:14 阅读：92 评论：0 收藏：0 [点我收藏+]

在spark dataFrame数据结构里面使用sql语句查询数据

（因为是RDD和dataFrame数据是只读的，所以不能做修改，删除操作。）

首先将文本数据转换为DataFrame数据格式

有两种将RDD转换为Dataframe的形式

利用反射机制推断RDD模式
使用编程方式定义RDD模式

这里直接读取json文件并转换为dataFrame结构


from pyspark.sql import SparkSession

spark=SparkSession.builder.getOrCreate()
df = spark.read.json("/user/hadoop/data.json")

df.createOrReplaceTempView("data")
dataDF = spark.sql("select title from data where title like '%中国%'").show()

查看data表中的所有title

select * from data

查看data表中，title包含字符串‘中国’

select title from data where title like '%中国%'

查看data表中，country 的值（去重）

SELECT DISTINCT country FROM data

查看平均值

spark.sql("select AVG(id) from data").show()

累加

spark.sql("select COUNT(id) from data").show()

统计有多少行数据

spark.sql("select COUNT(*) AS nums from data").show()

查看id=1的第一条数据的name值

spark.sql("select FIRST(name) AS name from data where id=1").show()

类似使用的函数：LAST MAX MIN SUM

spark sql 常用语句

原文：https://www.cnblogs.com/panfengde/p/11434538.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)