前段时间搭建了一个基于阿里云轻量应用服务器的spark集群,把搭建步骤记录下来供大家参考,没有将每个步骤详细写下来,只是给正在困惑中的宝宝一个整体的搭建思路。
1.购买阿里云轻量应用服务器,装centOS系统
买了三台,如果是学生的话,可以用自己还有同学的账号,会有折扣
2.下载一款ssh客户端(例如FinalShell),连接远程服务器
3.对于刚开始学习的同学,可以先熟悉一下linux系统的各个操作命令,先装上jdk,配置环境变量
注意:对于新手来说,首先学会怎么打开文件,保存关闭文件的命令,可以先用一个txt文件练习,熟悉之后再配置环境变量。
~/.bash_profile文件如果关闭的方式不对可能虚拟机就崩了,这是我之前在自己电脑的虚拟机上面发生过的悲剧,后来所有配置都要重新做,也因此养成了经常备份的习惯。
阿里云可以最多创建三个快照,要记得经常备份
4.配置几台服务器的免密登陆,这个网上百度教程就好,但是有一点要注意,免密登陆时ssh和authorized_keys的权限分别是700和600,可能要手动改,如果权限改不了可能会用到下面这条命令
chattr -i 文件名
这条命令的具体用法可以百度,当时我权限改不了就是用的这个弄好的
5.构建hadoop集群
有的同学可能会好奇,明明是构建spark集群,为什么变成hadoop了。这是因为我们在这里要用spark做并行计算,但是要用hdfs作为数据的分布式存储。
下载hadoop,按照网上的操作完成即可。当时好像是遇到过某个节点没有被启动的情况,网上是有解决办法的。用jps查看进程,如果子节点上面也有了说明成功了。
6.基于yarn的spark部署
下载scala语言和spark,按照网上说的教程配置好了之后,先开启hadoop集群,然后利用
spark-shell --master yarn --deploy-mode client
打开spark
7.当spark集群也搭建好了,就要开始运行程序了。
在自己本地的idea先构建一个maven项目,编好自己需要测试的代码,打成jar包上传到master节点
在这里选择yarn-client或者yarn-cluster提交代码,具体选择哪个看个人需求。
这是我写的第一个博客,感觉自己语言组织并不是很好,但还是希望给大家一些帮助吧
阿里云轻量应用服务器构建spark集群
原文:https://www.cnblogs.com/yueyesi/p/12212891.html