首页 > 其他 > 详细

第五部分 数据清洗

时间:2020-07-04 14:02:15      阅读:35      评论:0      收藏:0      [点我收藏+]

观看视频

hbase2hdfs

hdfs2hbase

两个视频都需要看,代码可以先不用懂,但是一定要按着视频敲一遍

如果你没有maven,也是可以打包项目

可以发现运行mapreduce项目不能在idea上运行必须要打包,对于跟着视频敲还好,但是自己写的时候,难免会碰到问题,所以在能idea上运行mapreduce项目,才是真正的友好。

配置在IDEA上运行mapreduce项目

配置链接

测试

当你数据清洗的部分,完成后,就可以测试第三部分的代码,是否可以在成功了。

碰到问题

如果你在idea上碰到卡在map 0 % ,reduce 0%

我自己当时是直接跑大文件结果出现上面的情况,但是小文件(就17条数据)是可以成功跑的。所以在运行大数据文件的时候,先用小文件测试是否没有Bug,再将代码中文件路径替换成大文件后,打包jar到服务器那边运行,注意:服务器那边运行项目也是可以输入的(即sc.nextLine())。如果你小文件也不能跑,请参考链接

第五部分 数据清洗

原文:https://www.cnblogs.com/10134dz/p/13234668.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!