以下操作皆基于Ubuntu 16.04 32位环境 & Hadoop 2.7.3版本
首先安装相关的准备环境
$ sudo apt update
$ sudo apt install -y default-jdk
$ sudo apt install -y vim
$ sudo apt install -y openssh-server/usr/lib/jvm/default-jdk目录在/etc/profile中添加下边两行内容并保存退出
export JAVA_HOME=/usr/lib/jvm/default-java
export PATH=$PATH:$JAVA_HOME/bin添加用户和用户组
$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo usermod -a -G sudo hduser切换到hduser,并执行以下操作
$ ssh-keygen -t rsa -P ""
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys之后尝试使用下边的命令连接本机,这个操作也会将本机加入到known hosts里
$ ssh localhost下载hadoop-2.7.3.tar.gz,以下假定工作目录为/home/hduser
$ tar -zxvf hadoop-2.7.3.tar.gz
$ mv hadoop-2.7.3/ hadoop/
$ sudo chown -R hduser:hadoop hadoop打开.bashrc,加入以下内容(也可以修改/etc/profile,但是使用.bashrc更加灵活)
export JAVA_HOME=/usr/lib/jvm/default-java
export HADOOP_HOME=/home/hduser/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin修改~/hadoop/etc/hadoop/hadoop-env.sh,在文件中添加下边的内容
export JAVA_HOME=/usr/lib/jvm/default-java修改~/hadoop/etc/hadoop/yarn-env.sh,在文件中添加下边的内容
export JAVA_HOME=/usr/lib/jvm/default-java~/hadoop/etc/hadoop/core-site.xml
执行以下命令
$ sudo mkdir -p /home/hduser/tmp
$ sudo chown hduser:hadoop /home/hduser/tmp
$ sudo chmod 750 /home/hduser/tmp在core-site.xml添加以下内容(各个属性的内容可以按照实际情况修改)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hduser/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>hadoop.proxyuser.hduser.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hduser.groups</name>
<value>*</value>
</property>
</configuration>~/hadoop/etc/hadoop/hdfs-site.xml,添加以下内容(各个属性的内容可以按照实际情况修改)
执行以下命令
$ sudo mkdir -p /home/hduser/dfs/name
$ sudo chown hduser:hadoop /home/hduser/dfs/name
$ sudo chmod 750 /home/hduser/dfs/name
$ sudo mkdir -p /home/hduser/dfs/data
$ sudo chown hduser:hadoop /home/hduser/dfs/data
$ sudo chmod 750 /home/hduser/dfs/data在hdfs-site.xml中添加以下内容
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hduser/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hduser/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>修改~/hadoop/etc/hadoop/mapred-site.xml,添加以下内容(各个属性的内容可以按照实际情况修改)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>修改~/hadoop/etc/hadoop/yarn-site.xml(各个属性的内容可以按照实际情况修改)
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value> master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value> master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value> master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value> master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value> master:8088</value>
</property>
</configuration>进入~/hadoop/bin目录下,执行以下操作
$ ./hdfs namenode –format在~/hadoop/sbin执行以下命令
$ ./start-dfs.sh
$ ./start-yarn.sh之后通过jps命令可以看到以下结果,说明启动成功
13058 Jps
13026 NodeManager
12916 ResourceManager
12169 DataNode此处默认master和slave已经按照单机节点配置完成
我的例子是一台master一台slave,分别确定两者的ip,然后在两台机器的/etc/hosts中写入以下内容
192.168.0.1 master
192.168.0.2 slave在master上执行以下命令
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave在slave上执行以下命令
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master~/hadoop/etc/hadoop/slaves
在master机器的slaves文件中添加以下内容
master
slave进入master的~/hadoop/bin目录下,执行以下操作
$ ./hdfs namenode –format在master的~/hadoop/sbin执行以下命令
$ ./start-dfs.sh
$ ./start-yarn.shjps命令可以看到以下结果,说明启动成功
master中
4048 Jps
3899 ResourceManager
4013 NodeManager
3726 SecondaryNameNode
3423 NameNode
3535 DataNodeslave中
2754 DataNode
3012 Jps
2903 NodeManager/home/hduser进行如下操作解压压缩包(每个节点都要进行)
$ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz~/.bashrc文件
在.bashrc文件中添加以下内容(每个节点都要添加)
export SPARK_HOME=/home/hduser/spark
export PATH=$PATH:$SPARK_HOME/bin~/spark/conf/slaves文件
在两个节点的salves文件中添加以下内容
master
slave在master的~/spark/sbin中执行以下命令
./start-all.sh在master中执行jps,发现以下结果说明spark运行成功
5257 Worker
5177 Master
3726 SecondaryNameNode
5326 Jps
3432 NameNode
3535 DataNode在slave中执行jsp,发现一下结果说明spark运行成功
2754 DataNode
3717 Worker
3771 Jps/home/hduser进行如下操作解压压缩包(只需要在master进行)
$ tar -zxvf scala-2.12.6.tgz~/.bashrc文件
在.bashrc文件中添加以下内容(只需要在master在master上执行以下命令)
export SCALA_HOME=/home/hduser/scala
export PATH=$PATH:$SCALA_HOME/bin在master上执行以下命令
$ sudo apt install eclipse-platform原文:https://www.cnblogs.com/steins-gate/p/9193609.html