首页 > 其他 > 详细

pyspark读取parquet数据

时间:2020-03-14 17:32:59      阅读:88      评论:0      收藏:0      [点我收藏+]

parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:

  1. 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;
  2. 压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间;
  3. 只读取需要的列,支持向量运算,能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢?我以local模式,linux下的pycharm执行作说明。

首先,导入库文件和配置环境:

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"  #多个python版本时需要指定

conf = SparkConf().setAppName(test_parquet)
sc = SparkContext(local, test, conf=conf)
spark = SparkSession(sc)

然后,使用spark进行读取,得到DataFrame格式的数据:host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而,DataFrame格式数据有一些方法可以使用,例如:

1. df.first() :显示第一条数据,Row格式

print(df.first())

技术分享图片

2. df.columns:列名

3. df.count():数据量,数据条数

4. df.toPandas():从spark的DataFrame格式数据转到Pandas数据结构

5. df.show():直接显示表数据

 6. type(df):显数据示格式

技术分享图片

 

参考:

https://blog.csdn.net/worldchinalee/article/details/82781263

pyspark读取parquet数据

原文:https://www.cnblogs.com/qi-yuan-008/p/12493082.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!