第五部分数据清洗

时间：2020-07-04 14:02:15 阅读：36 评论：0 收藏：0 [点我收藏+]

观看视频

hbase2hdfs

hdfs2hbase

两个视频都需要看，代码可以先不用懂，但是一定要按着视频敲一遍

如果你没有maven，也是可以打包项目的

可以发现运行mapreduce项目不能在idea上运行必须要打包，对于跟着视频敲还好，但是自己写的时候，难免会碰到问题，所以在能idea上运行mapreduce项目，才是真正的友好。

配置在IDEA上运行mapreduce项目

配置链接

测试

当你数据清洗的部分，完成后，就可以测试第三部分的代码，是否可以在成功了。

碰到问题

如果你在idea上碰到卡在map 0 % ,reduce 0%

我自己当时是直接跑大文件结果出现上面的情况，但是小文件（就17条数据）是可以成功跑的。所以在运行大数据文件的时候，先用小文件测试是否没有Bug,再将代码中文件路径替换成大文件后，打包jar到服务器那边运行，注意：服务器那边运行项目也是可以输入的（即sc.nextLine()）。如果你小文件也不能跑，请参考链接。

第五部分数据清洗

原文：https://www.cnblogs.com/10134dz/p/13234668.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

第五部分 数据清洗

观看视频

配置在IDEA上运行mapreduce项目

测试

碰到问题

第五部分数据清洗