首页 > 其他 > 详细

Hadoop综合大作业

时间：2018-05-22 22:53:14 阅读：220 评论：0 收藏：0 [点我收藏+]

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

因为python生成的结果为中文，所以首先去网上下载一篇英文小说，我选择的时《了不起的盖茨比》

首先启动hadoop

技术分享图片

文件上传到hdfs

技术分享图片

技术分享图片

启动hive

技术分享图片

创建原始文件，导入文件到small中并查看，因为之前已经操作，所以直接查看是否有small表

技术分享图片

然后进行HQL词频统计，结果放到small_count中

技术分享图片

查看small_count表中的前十

技术分享图片

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。
统计的时2345电影网的热门电影数据。如图：

技术分享图片

将文件转换为csv格式和txt格式，并将文件放入到虚拟机中

技术分享图片

查看前十条：

技术分享图片

启动hdfs

技术分享图片

将文件上传至hdfs并显示前十条
技术分享图片

启动hive

技术分享图片

创建数据库

技术分享图片

创建表

技术分享图片

将文件导入表中

技术分享图片

查看前十条

技术分享图片

Hadoop综合大作业

原文：https://www.cnblogs.com/cgz123/p/9074289.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！