在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,
而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:
Flume分布式系统中最核心的角色是agent,flume采集系统就是由一个个agent所连接起来形成的
每一个agent相当于一个数据传递员,内部有三个组件:
单个agent采集数据
两个agent之间串联
多级agent之间串联
多级channel
原文:https://www.cnblogs.com/tenic/p/14905392.html