首页 > 其他 > 详细

实时计算DStream下求平均值(reduceByKey or combineByKey)

时间:2018-03-21 20:52:23      阅读:921      评论:0      收藏:0      [点我收藏+]

对NC市的卡口数据进行分析,大概所有卡口每15秒接入的有效数据在3000条左右,现在产品经理要求对这些数据进行拥堵分析,通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来,然后根据卡口数据中的车牌和经过时间找到之前的过车记录,取出时间差,即为该路段的一条行驶时长,根据路段编码求时长的平均值。

 我发现RDD的combineByKey只需要传入前三个参数,而DStream则必须传入完整的5个参数,第四个参数不知道怎么用,找遍了github和Spark官网也没有,晚点再去研究一下!

          def combineByKey[C](  

  1.       createCombiner: V => C,  
  2.       mergeValue: (C, V) => C,  
  3.       mergeCombiners: (C, C) => C,  
  4.       partitioner: Partitioner,  
  5.       mapSideCombine: Boolean = true)

只能用reduceByKey 代替了! 

未完待续~~~~~~~~~~~

实时计算DStream下求平均值(reduceByKey or combineByKey)

原文:https://www.cnblogs.com/1023linlin/p/8619328.html

(2)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!