一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
选择 第一题中的第2小题 对这个比较感兴趣
二、实践方案
简要说明理由。
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天。
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
6.23 | 6.24 | 6.25 | 6.26 | 6.27 | 6.28 | 6.29 | 6.30 | 7.1 | 7.2 | 7.3 | |
安装Linux操作系统 | |||||||||||
安装关系型数据库MySql | |||||||||||
安装大数据处理框架hadoop | |||||||||||
安装数据仓库Hive | |||||||||||
安装Sqoop | |||||||||||
安装Eclipse | |||||||||||
安装Spark | |||||||||||
数据预处理 | |||||||||||
导入数据到仓库 | |||||||||||
把数据集导入到数据仓库 | |||||||||||
对仓库中的数据进行查询分析 | |||||||||||
使用Sqoop将数据从Hive导入MySql | |||||||||||
利用Ecplise搭建动态Web应用 | |||||||||||
利用Echarts进行前端可视化分析 | |||||||||||
利用Spark MLlib进行回头客行为预测 | |||||||||||
答辩 |
1.
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt
2.
https://www.kaggle.com/competitions
说明:
原文:https://www.cnblogs.com/dreww/p/13184519.html