首页 > 其他 > 详细

寒假学习记录17

时间:2020-02-11 20:44:38      阅读:76      评论:0      收藏:0      [点我收藏+]

寒假学习记录17

 

实验 5  Spark SQL 编程初级实践

一、实验目的

(1)通过实验掌握 Spark SQL 的基本编程方法;

(2)熟悉 RDD 到 DataFrame 的转化方法;

(3)熟悉利用 Spark SQL 管理来自不同数据源的数据。

二、实验平台

操作系统: Ubuntu16.04 Spark 版本:2.1.0 数据库:MySQL

三、实验内容和要求

1.Spark SQL 基本操作

将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。

 

为 employee.json 创建 DataFrame,并写出 Scala 语句完成下列操作:

(1)  查询所有数据;

 

(2) 查询所有数据,并去除重复的数据;

 

(3) 查询所有数据,打印时去除 id 字段;

 

(4) 筛选出 age>30 的记录;

 

(5) 将数据按 age 分组;

 

(6) 将数据按 name 升序排列;

 

(7) 取出前 3 行数据;

 

(8) 查询所有记录的 name 列,并为其取别名为 username;

 

(9) 查询年龄 age 的平均值;

 

(10) 查询年龄 age 的最小值。

 

2.编程实现将 RDD 转换为 DataFrame

源文件内容如下(包含 id,name,age):

 

请将数据复制保存到 Linux 系统中,命名为 employee.txt,实现从 RDD 转换得到 DataFrame,并按“id:1,name:Ella,age:36”的格式打印出 DataFrame 的所有数据。请写出程序代 码。

 

3. 编程实现利用 DataFrame 读写 MySQL 的数据

(1)在 MySQL 数据库中新建数据库 sparktest,再创建表 employee,包含如表 6-2 所示的 两行数据。

表 6-2 employee 表原有数据

 

(2)配置 Spark 通过 JDBC 连接数据库 MySQL,编程实现利用 DataFrame 插入如表 6-3 所 示的两行数据到 MySQL 中,最后打印出 age 的最大值和 age 的总和。

表 6-3 employee 表新增数据

 

寒假学习记录17

原文:https://www.cnblogs.com/zhoulonghai/p/12296470.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!