首页 > 其他 > 详细

hadoop学习笔记(二)

时间:2016-04-29 15:03:43      阅读:217      评论:0      收藏:0      [点我收藏+]

hadoop学习笔记(二)

我的个人博客站点地址:孙星的个人博客主页
后续的学习笔记:hadoop学习笔记

hadoop单节点的搭建

下载hadoop:

wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
tar -zxvf hadoop-2.7.1.tar.gz

解压配置免密码登陆:

//生成秘钥
ssh-keygen -t rsa

//一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私钥
id_rsa:         私钥
id_rsa.pub:     公钥

//创建认证文件
cat id_rsa.pub >> authorized_keys

配置hosts

主要是修改其中的hostname和对应的ip,修改如下:


技术分享

配置相应的配置文件

进入到hadoop的解压目录中,其中etc/hadoop目录是配置目录,进入到目录中可以看到:


技术分享

其中主要配置的是环境变量(hadoop-env.sh)和core-site.xml,hdfs-site.xml,mapred.site.xml以及yarn-site.xml则五个文件,相关的配置如下:

hadoop-env.sh:


技术分享

core-site.xml:


技术分享

hdfs-site.xml:


技术分享

mapred-site.xml:


技术分享

yarn-site.sh:


技术分享

运行hadoop

配置好以后,需要先格式化一下,格式的命令如下:

hadoop namenode -format

格式化NameNode的动作,主要做了一下一下内容:

* 如果dfs.namenode.name.dir对应的文件夹目录不存在,则创建一个目录,并初始化fsimage,和edits并且写入一些初始值,这个动作在文件系统中一样,格式化主要是清空重置。
* 如果对应的目录地址的数据已经存在了,则删除相应的,目录下的文件,在重新建立

格式完hadoop以后就可以启动hadoop了,启动的命令如下:

cd /usr/loca/share/hadoop2.7.1

./sbin/start-all.sh

启动过后的进程数据如下:


技术分享


技术分享

hadoop的wordcount的程序的开发

代码结构如下:


技术分享

自定义mapper类代码如下:


技术分享

自定义reducer类代码如下:


技术分享

wordcount程序的数据源:


技术分享

wordcount程序的执行过程:


技术分享

wordcount程序的结果展示:


技术分享

hadoop学习笔记(二)

原文:http://blog.csdn.net/sunxing2016/article/details/51280846

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!