引言: Hadoop目前是业界处理离线大数据的主流解决方案,它极大的解决了线性扩展集群和并行处理的问题,本文将以图形方式,详细描述了整个Hadoop测试环境的搭建,目前,hadoop有3个主要的分支,0.2.x,1.x, 2.x;这里先以1.2.2的稳定版为部署版本为示例。
1. 虚拟机准备
这里使用Ubuntu系统,2台虚拟机为Ubuntu Server,无界面,最大限度节约资源。虚拟机软件使用VirtualBox。具体的安装虚拟机的过程,在此不再赘述。
2. 下载Hadoop的稳定版1.2.2
访问: hadoop.apache.org, 下载官方版。其实Hadoop有若干的其他厂商的版本,比如CDH:Cloudrea的Hadoop发行版本。
3. 下载合适的JDK版本,根据操作系统的版本来确定32/64位系统
我所用的系统是64位的,故选择x64的jdk版本。
4. 安装jdk,并设置环境变量JAVA_HOME,PATH
解压jdk:
设置环境变量,cmd: vim ~/.bashrc
5. 解压hadoop安装包
6. 给当前用户创建ssh的密钥,用以实现无密钥登录。
7. 创建authorized_keys文件,并复制到不同的节点上,并验证是否可以无密钥登录
命令: sudo vim ~/.ssh/authorized_keys
复制到其他节点:
8. 设置机器的主机名,分别设置各个节点的主机名。
命令: sudo vim /etc/hostname
命令: sudo vim /etc/hosts
10.修改hadoop的core-site.xml,使用默认的缺省设置,添加如下信息:
11.修改hadoop的hdfs-site.xml
12.修改hadoop的mapred-site.xml
13.修改hadoop的master,slaves
sudo vim hadoop_home/conf/master
sudo vim hadoop_home/conf/slaves
14.将hadoop向各个节点分发包
15.在master节点上格式化namenode
16. 启动hadoop集群, 从主节点启动
17. 验证主节点是否正常启动,基于jdk的jps命令
18. 验证dataNode是否正常启动
19. 关闭hadoop的集群
说明:
1. 实验环境是1台笔记本,I5酷睿双核,8g内存,外加,2台基于VirutalBox的虚拟机,使用Ubuntu ServerEdition.
2. 搭建集群需要使用基于ssh的无密码登录环境
3. JDK搭建需要考虑32(i586)/64(x86)的版本;
4. 配置信息都是使用基本的缺省配置 ,如需特殊配置,则请查阅相关文档
5. Hadoop版本使用1.x分支的稳定版:1.2.2,基于2.x的稳定版的安装过程,将在后续的内容中奉上。
Hadoop 1.x测试环境搭建,布布扣,bubuko.com
原文:http://blog.csdn.net/blueheart20/article/details/21857225