首页 > 其他 > 详细

Hive 企业调优

时间：2019-06-21 19:42:32 阅读：178 评论：0 收藏：0 [点我收藏+]

9.企业级调优

9.1 Fetch 抓取

Fetch 抓取：Hive 中对某些情况的查询可以不必使用 MapReduce 计算；
- hive.fetch.task.conversion:more

9.2 本地模式

大多数的 Hadoop Job 是需要 Hadoop 提供完整的可扩展性来处理大数据集的。不过，有时 Hive 的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive 可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。
- hive.exec.mode.local.auto:true

9.3 表的优化

9.3.1 小表Join大表

实际测试发现：新版的 hive 已经对小表JOIN大表和大表JOIN小表进行了优化，小表放在左边和右边已经没有明显区别；

9.3.2 大表Join大表

第一种方式：查询之前，过滤Null
- select n.* from (select * from nullidtable where id is not null) n left join bigtable o on n.id = o.id;
第二种方式：给Null的赋值
- 需要避免数据倾斜，所以使用rand()；
- select n.* from nullidtable n full join bigtable o on case when n.id is null then concat(‘hive‘, rand()) else n.id end = o.id;

9.3.3 MapJoin

如果不指定 MapJoin 或者不符合 MapJoin 的条件，那么 Hive 解析器会将 Join 操作转换成 Common Join，即：在Reduce阶段完成join，容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存，在 map 端进行 join，避免 reducer 处理。
开启MapJoin参数设置：
- 开启自动选择 MapJoin:``

Hive 企业调优

原文：https://www.cnblogs.com/linkworld/p/11066416.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！