首页 > 其他 > 详细

RDD编程

时间:2021-04-18 22:06:40      阅读:31      评论:0      收藏:0      [点我收藏+]

一、词频统计:

1.读文本文件生成RDD lines;将一行一行的文本分割成单词 words flatmap();全部转换为小写 lower();去掉长度小于3的单词 filter();去掉停用词;转换成键值对 map();统计词频 reduceByKey()

技术分享图片

2.按字母顺序排序 sortByKey()

技术分享图片

3.按词频排序 sortBy(lambda)

技术分享图片

 

二、学生课程分数案例

1.总共有多少学生?map(), distinct(), count()

技术分享图片

2.开设了多少门课程?

技术分享图片

3.每个学生选修了多少门课?map(), countByKey()

技术分享图片

4.每门课程有多少个学生选?map(), countByValue()

技术分享图片

5.Abraham选修了几门课?每门课多少分?filter(), map()

技术分享图片

6.Abraham选修了几门课?每门课多少分?map(),lookup() 

技术分享图片

7.Abraham的成绩按分数大小排序。filter(), map(), sortBy()

技术分享图片

8.Abraham的平均分。map(),lookup(),mean()

技术分享图片

RDD编程

原文:https://www.cnblogs.com/chenwenxu/p/14674407.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!