首页 > 其他 > 详细

实时计算的一些思考

时间:2015-03-20 18:42:54      阅读:287      评论:0      收藏:0      [点我收藏+]

实时处理过程的一些问题,有的是大促时候发现的,有的是规划data_eye这个数据产品时候想到的,拿出来和大家一起讨论下:
  1. 同一个topic的处理逻辑冗余,逻辑上还有运行资源上(日志处理这块资源开销较大)
  2. 数据处理口径差异性控制
  3. 同一数据源后续处理的耦合性,尤其是数据产品开发时候的发布一个topo,可能影响较大

借鉴了数据仓库设计的模型结构以及linkedin的Samza处理思想,可以考虑使用kafka这个组件做数据回流

处理后的数据以topic的形式对外服务。更新后的处理流程如下:

技术分享

方案的优点:
  1. 将数据处理的公用部分分离
  2. 对于数据产品的开发(数据源计较集中),后续的处理相对比较独立,避免一次发布影响太多其他数据的现象
  3. 避免处理逻辑及资源的重复开销
  4. 充分利用kafka的高性能及扩展性

实时计算的一些思考

原文:http://blog.csdn.net/tonylee0329/article/details/44492435

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!