首页 > Web开发 > 详细

网站用户行为分析

时间:2020-12-27 16:21:24      阅读:30      评论:0      收藏:0      [点我收藏+]

2.1 数据准备

(1)数据集下载与查看

cd /usr/local

ls

sudo mkdir bigdatacase

sudo chown -R hadoop:hadoop ./bigdatacase

cd bigdatacase

mkdir dataset

cd ~/下载

unzip user_table.zip -d /usr/local/bigdatacase/dataset

cd /usr/local/bigdatacase/dataset

ls

技术分享图片

 

 

(2)数据集预处理

sed -i ‘1d‘ raw_user.csv

head -5 raw_user.csv

技术分享图片

 

 

gedit pre_deal.sh

bash ./pre_deal.sh raw_user.csv user_table.txt

ls

head -10 user_table.txt

 技术分享图片

 

 

(3)把数据集导入HDFS中

start_all.sh

jps

hdfs dfs -mkdir -p /bigdatacase/dataset

hdfs dfs -put /usr/local/bigdatacase/dataset/user_table.txt /bigdatacase/dataset

hdfs dfs -ls /bigdatacase/dataset/

hdfs dfs -cat /bigdatacase/dataset/user_table.txt | head -10

技术分享图片

 

 

 

(4)在Hive上创建数据库

hive

create database dblab;

use dblab;

CREATE EXTERNAL TABLE dblab.big_user(id INT,uid STRING,item_id STRING,behavior_type INT,item_category STRING,visit_date DATE,province STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t‘ 
STORED AS TEXTFILE 
LOCATION ‘/bigdatacase/dataset‘;

select * from big_user limit 10;

技术分享图片

 

 

2.2 Hive数据分析

(1)用户行为分析需求:2014-12-11~12号有多少条购买商品的记录

    分析步骤

  • 语句:select count(*) from big_user where visit_date >‘2014-12-10‘ and visit_date <‘2014-12-13‘ and behavior_type=‘4‘ limit 10;
  • 结果截图:运行或存为表格后的查询显示

技术分享图片

 

 

(2)用户行为分析需求:分析每月1-31号购买情况

  • 语句:select count(distinct uid), day(visit_date) from bigdata_user where behavior_type=‘4‘ group by day(visit_date);
  • 结果截图:运行或存为表格后的查询显示

技术分享图片

 

 

(3)自定义需求:2014-12-12号当天按省份统计购买数量

  • 语句:select province ,count(*) from big_user where behavior_type=‘4‘ and visit_date=‘2014-12-12‘ group by province having count(behavior_type=‘4‘)>4 limit 20;
  • 结果截图:运行或存为表格后的查询显示

技术分享图片

 

网站用户行为分析

原文:https://www.cnblogs.com/fbs1/p/14197385.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!