大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。
大数据的主要特点为:
合起来被称为4V。
还有的将大数据特点定义为6V模型,即增加了Valence(连接)、Value(价值)2V。
大数据相关的概念大家都听过不少:HDFS、MapReduce、Spark、Storm、Spark Streaming、Hive、Hbase、Flume、Logstash、Kafka、Flink、Druid、ES等等。
是否感觉眼花缭乱?
下面我们将这些常见的概念进行分组。
同一组的框架(工具)可以完成相同的工作,但各自使用的场景有所差异。
01
离线计算:Hadoop MapReduce、Spark
实时计算:Storm、Spark Streaming、Flink
02
文件存储:Hadoop HDFS、Tachyon、KFS
NOSQL数据库:HBase、MongoDB、Redis
全文检索:ES、Solr
03
YARN、Mesos
04
Flume、Logstash
05
Kafka、StormMQ、ZeroMQ、RabbitMQ
06
Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid
原文:https://www.cnblogs.com/zuozhesang/p/11537909.html