阿里云轻量应用服务器构建spark集群

时间：2020-01-19 12:11:07 阅读：70 评论：0 收藏：0 [点我收藏+]

前段时间搭建了一个基于阿里云轻量应用服务器的spark集群，把搭建步骤记录下来供大家参考，没有将每个步骤详细写下来，只是给正在困惑中的宝宝一个整体的搭建思路。

1.购买阿里云轻量应用服务器，装centOS系统

买了三台，如果是学生的话，可以用自己还有同学的账号，会有折扣

2.下载一款ssh客户端（例如FinalShell）,连接远程服务器

3.对于刚开始学习的同学，可以先熟悉一下linux系统的各个操作命令，先装上jdk，配置环境变量

注意：对于新手来说，首先学会怎么打开文件，保存关闭文件的命令，可以先用一个txt文件练习，熟悉之后再配置环境变量。

~/.bash_profile文件如果关闭的方式不对可能虚拟机就崩了，这是我之前在自己电脑的虚拟机上面发生过的悲剧，后来所有配置都要重新做，也因此养成了经常备份的习惯。

阿里云可以最多创建三个快照，要记得经常备份

4.配置几台服务器的免密登陆，这个网上百度教程就好，但是有一点要注意，免密登陆时ssh和authorized_keys的权限分别是700和600，可能要手动改，如果权限改不了可能会用到下面这条命令

chattr -i 文件名

这条命令的具体用法可以百度，当时我权限改不了就是用的这个弄好的

5.构建hadoop集群

有的同学可能会好奇，明明是构建spark集群，为什么变成hadoop了。这是因为我们在这里要用spark做并行计算，但是要用hdfs作为数据的分布式存储。

下载hadoop,按照网上的操作完成即可。当时好像是遇到过某个节点没有被启动的情况，网上是有解决办法的。用jps查看进程，如果子节点上面也有了说明成功了。

6.基于yarn的spark部署

下载scala语言和spark，按照网上说的教程配置好了之后，先开启hadoop集群，然后利用

spark-shell --master yarn --deploy-mode client

打开spark

7.当spark集群也搭建好了，就要开始运行程序了。

在自己本地的idea先构建一个maven项目，编好自己需要测试的代码，打成jar包上传到master节点

在这里选择yarn-client或者yarn-cluster提交代码，具体选择哪个看个人需求。

这是我写的第一个博客，感觉自己语言组织并不是很好，但还是希望给大家一些帮助吧

原文：https://www.cnblogs.com/yueyesi/p/12212891.html

踩

(0)

评论一句话评论（0）

分享档案

更多>