首页 > 其他 > 详细

基于Shark 运行Shark(译)

时间:2015-10-20 12:29:05      阅读:266      评论:0      收藏:0      [点我收藏+]

基于Shark 运行Shark

这部分额外的首要条件数是, 我们也假设你已经安装了 Tachyon 和 Hadoop  根据  Local Mode or  Cluster Mode

Shark 0.7 增加了一个新的存储格式支持从 Tachyon 高效率读取数据,这使得在 Shark 实例间数据共享和隔离。我们的聚会幻灯片(slide)给出了使用Tachyon 缓存 Shark‘s 表的好处一个很好的概述。总之,以下四个是主要的:

  • 内存中的数据共享多个 Shark 实例 (即:加强隔离)
  • 即时恢复内存中的表
  • 减少 Shark 的堆大小导致的频繁GC 问题
  • 如果表的大小超出了可用内存总数,只有常用列会被缓存在内存中(译者注:根据使用频率缓存)

Shark 兼容性

Tachyon 版本 Shark 版本
0.2.1 0.7.x
0.3.0 0.8.1
0.4.0 0.9.0
0.4.1 0.9.1 +
0.5.0 0.9.1 +

设置

为了基于Tachyon运行 Shark,首先需要配置Tachyon,在 Local Mode or in Cluster Mode, 及 HDFS 。

然后添加以下行内容在 shark-env.sh:

export TACHYON_MASTER="tachyon://TachyonMasterHost:TachyonMasterPort" export TACHYON_WAREHOUSE_PATH=/sharktables

缓存 Shark tables 到 Tachyon


一些组合方式在Tachyon 上创建缓存表,运行这些查询需要一些数据已经在 文件系统 或加载到 Shark。

指定 TBLPROPERTIES(“shark.cache” = “tachyon”), 示例:
CREATE TABLE data TBLPROPERTIES(“shark.cache” = “tachyon”) AS SELECT a, b, c from data_on_disk WHERE month=“May”;
指定表名字必须以 _tachyon 结尾,示例:
CREATE TABLE orders_tachyon AS SELECT * FROM orders;
之后再Tachyon中创建这个表,你可以像其他表那样查询它。

基于Shark 运行Shark(译)

原文:http://my.oschina.net/Rayn/blog/519232

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!