该文档为实实在在的原创文档,转载请注明作者及出处。
类型 |
详细 |
备注 |
2 2 CSDN中相应项目CODE链接:戳这里 |
相关描述 |
2 2 2 2 |
2
2
2
数据流的产生目前使用的比较多的是:log文件读取、从mysql(或者是相关db)中获取、从消息中间件(如metaq)中获取及使用socket从网络中获取。
补充:
在该项目中,由于我的metaq还没搭好,所以就直接采用读取log的方式作为源数据,往后会给出metaq作为数据源的接口及mysql作为数据源的接口等。
这里的HandleBolt是宽泛的概念,指对数据进行处理的相关Bolt,目前比较常见的处理方式是数据过滤、数据添加、部分数据统计、数据监控等等。这些都是比较常见的数据实时处理方式。
补充:
该项目中数据处理部分使用数据监控处理,及对数据流进行条件过滤,将部分符合条件的数据筛选出来做进一步处理,达到条件数据监控的目的。目前该部分支持多种条件判断方式组合,多个字段组合判断及多种逻辑判断方式。往后会进一步晚上。
LastingBolt泛指数据在处理之后进行持久化操作的接口,常见的持久化操作接口是:直接打印(这个貌似不算)、写入file中、写入mysql(及其他db)中、写入消息中间件(metaq)供其他业务调用、使用Socket写入网络端口中等等。
补充:
该项目中暂时设计两个数据持久化Bolt,一个是直接打印出来(比较直观),二是存入mysql中。其他方式接口会慢慢的给出。
图2.1 数据监控设计拓扑
数据监控设计拓扑说明:
ReadLogSpout:
该部分spout从domain.log(稍后给出log说明)读取数据,每次读取一行记录,该数据为域名出售log,读取数据后交给MonitorBolt进行处理。
MonitorBolt:
该部分Bolt对数据进行解析,读取配置文件MonitorBolt.xml中的逻辑判断及相关过滤规则等,进行数据过滤,将符合条件的数据发射到下一级(稍后有Bolt分析)。
MysqlBolt:
在MonitorBolt处理完数据之后将数据存入mysql的库表中,数据库相关配置从配置文件MysqlBolt.xml中读取。
PrintBolt:
将结果直接打印出来。
图2.2 网络环境拓扑
拓扑说明:
该项目只搭建三个storm节点一个为Nimbus节点,两个supervisor节点,其中在Nimbus节点中又安装有mysql。
目前源数据从domain.log中读取,该log为人工构造,模拟域名拍卖的log,其中有五个字段,分别为domain(域名)、value(售价)、time(申请年份)、validity(有效期)、seller(卖家)。详细如下:
图3.1 源数据说明
一行数据为一条记录,每条记录有5个属性。
从Monitor的配置文件中说明数据监控的设计:
图3.2 MonitorBolt.xml截图
参数说明:
2
2
2
2
2
从MysqlBolt.xml中进行说明:
图3.3 MyslqBolt.xml截图
Myslq数据存储处理指明myslq的host,指明database及from,使用username及password将数据存储已经创建好的mysql表中。
图3.4 源码树
源码简单说明:Storm包中为总体运行的Topology,Storm.base目前只有myslq预处理的一个类,storm.bolt为bolt处理类,包括monitorbolt及printbolt,storm.spout包中为spout源数据接口,storm.source为构造源数据的一个类(这个可以忽略),storm.xml为配置文件读取类,domain.log为源数据,MonitorBolt.xml及MyslqBolt.xml分别为配置文件。
该文档是数据流监控的总体设计文档,详细的代码解析将会继续给出。该设计附有代码,需要的请到博客中留下邮箱,我会发给你。
原文:http://blog.csdn.net/chongyuanhuang/article/details/40866731