数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80~400维度的数据。
6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)
大数据
要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。
多维分析
要任意维度组合与过滤
还要对任意指标进行统计和排序
即席查询
要查询快,秒级响应。
还要数据快,数据分钟级延迟。
官方地址:https://github.com/alibaba/mdrill
mdrill技术交流群:171465049
原文:http://1459802.blog.51cto.com/1449802/1360071