首页 > 数据库技术 > 详细

06 Spark SQL 及其DataFrame的基本操作

时间：2021-05-09 23:59:05 阅读：32 评论：0 收藏：0 [点我收藏+]

1.Spark SQL出现的原因是什么?

答：（1）Shark执行计划优化完全依赖于Hive，不便于添加新的优化策略。

　　（2）Spark是线程级并行，MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支。

　　（3）Shark的实现继承了大量的Hive代码，因而给优化和维护带来了大量的麻烦，特别是基于MapReduce设计的部分，成为整个项目的瓶颈。

2.用spark.read 创建DataFrame

答：（1）代码

技术分享图片

　　（2）运行结果

技术分享图片

3.观察从不同类型文件创建DataFrame有什么异同?

答：（1）通过txt文本文件创建的DataFrame是一个键值对，键是“value”，值是整个文本文件的内容，类型为string类型；

　　（2）通过json文件创建的DataFrame可以是若干个键值对，键值对的键值类型与json文件内容一一对应。

4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同？

答：（1）代码

技术分享图片

　　（2）运行结果

技术分享图片

06 Spark SQL 及其DataFrame的基本操作

原文：https://www.cnblogs.com/ghy-blog/p/14748806.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！