大数据概述（一）

时间：2019-09-18 00:05:35 阅读：86 评论：0 收藏：0 [点我收藏+]

什么是大数据

大数据，官方定义是指那些数据量特别大、数据类别特别复杂的数据集，这种数据集无法用传统的数据库进行存储，管理和处理。

大数据的主要特点为：

合起来被称为4V。

还有的将大数据特点定义为6V模型，即增加了Valence（连接）、Value（价值）2V。

大数据相关的概念大家都听过不少：HDFS、MapReduce、Spark、Storm、Spark Streaming、Hive、Hbase、Flume、Logstash、Kafka、Flink、Druid、ES等等。

是否感觉眼花缭乱？

下面我们将这些常见的概念进行分组。

同一组的框架（工具）可以完成相同的工作，但各自使用的场景有所差异。

离线计算：Hadoop MapReduce、Spark

实时计算：Storm、Spark Streaming、Flink

文件存储:Hadoop HDFS、Tachyon、KFS

NOSQL数据库：HBase、MongoDB、Redis

全文检索：ES、Solr

YARN、Mesos

Flume、Logstash

Kafka、StormMQ、ZeroMQ、RabbitMQ

Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

原文：https://www.cnblogs.com/zuozhesang/p/11537909.html

踩

(0)

评论一句话评论（0）

分享档案

更多>