首页 > 其他 > 详细

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

时间:2018-01-31 23:08:46      阅读:224      评论:0      收藏:0      [点我收藏+]

铭文一级:[木有笔记]

铭文二级:

第12章 Spark Streaming项目实战

行为日志分析:

1.访问量的统计

2.网站黏性

3.推荐

 

Python实时产生数据

访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中

本地与虚拟机都要装了python才能运行

重要代码:

#coding=UTF-8

#数组最后一个没有“,”

 

url_paths = [
  "class/128.html",
  "class/112.html",
  "class/143.html",
  "class/141.html",
  "learn/821",
  "course/list"
]
#增强for循环
#sample(seq, n) 从序列seq中选择n个随机且独立的元素;
return ".".join([str(item) for item in slice])    
def sample_url()
  return random.sample(url_paths,1)[0]
query_log = "{url}".format(url=sample_url())

  

一张图让你学会Python基础语法(看不清可另存为):

http://blog.csdn.net/qq_30845505/article/details/51588423

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

原文:https://www.cnblogs.com/kkxwz/p/8394851.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!