我们使用hive关联hbase插入数据时,有时会写错数据,此时hbase中的数据量已经很大很大了(上亿)。此时,我们要修改错误的数据,只需要删除写错的那部分数据就可以了,但是很遗憾,hbase中没有这样的sql语句(hbase是不能用SQL操作的,这里概指hbase的一套数据库操作语言),怎么办呢。。。
网上找了下,看了这个大佬的方法感觉确实可以。请先移步至大佬原文,然后回来再看(尊重别人的劳动)
1.通过
scan ‘‘tableName,{ COLUMNS => ‘t1‘,TIMERANGE => [1516177518989,1516177790871] }
的方法找出要删除的数据(主要是rowkey和一种任意一列),然后写入到一个文件
2.将找出的rowkey进行hbase数据删除语句的拼接并写到shell中,如下图所示,注意文件末尾是有定个写的EOF
3.执行该shell语句
综上,大佬只给了方法,操作步骤是分离的,分了很多步,显得麻烦,本人不想这么麻烦,于是整合了一个完整的shell
以上就是shell的代码
执行时的参数顺序:
开始时间戳 结束时间戳 hbase表名 其中任意一列(每行数据都共有的列)
举个栗子:
下图就是我用hive插入数据的任务执行记录
所以我的执行shell的参数顺序就是:
sh deleteWithArgu.sh 2018-01-22 17:11:52 2018-01-22 17:14:53 jia:test base:email_number
注意:
该shell执行时产生的中间数据和shell命令在同一目录,执行完成后会自动清除(可在shell中修改是否删除)。请根据你要删除的数据量的大小决定sh执行的位置。
原文:https://www.cnblogs.com/qinglanmei/p/10855629.html