首页 > 其他 > 详细

阿里云轻量应用服务器构建spark集群

时间:2020-01-19 12:11:07      阅读:69      评论:0      收藏:0      [点我收藏+]

前段时间搭建了一个基于阿里云轻量应用服务器的spark集群,把搭建步骤记录下来供大家参考,没有将每个步骤详细写下来,只是给正在困惑中的宝宝一个整体的搭建思路。

1.购买阿里云轻量应用服务器,装centOS系统

买了三台,如果是学生的话,可以用自己还有同学的账号,会有折扣

2.下载一款ssh客户端(例如FinalShell),连接远程服务器

3.对于刚开始学习的同学,可以先熟悉一下linux系统的各个操作命令,先装上jdk,配置环境变量

注意:对于新手来说,首先学会怎么打开文件,保存关闭文件的命令,可以先用一个txt文件练习,熟悉之后再配置环境变量。

~/.bash_profile文件如果关闭的方式不对可能虚拟机就崩了,这是我之前在自己电脑的虚拟机上面发生过的悲剧,后来所有配置都要重新做,也因此养成了经常备份的习惯。
阿里云可以最多创建三个快照,要记得经常备份
4.配置几台服务器的免密登陆,这个网上百度教程就好,但是有一点要注意,免密登陆时ssh和authorized_keys的权限分别是700和600,可能要手动改,如果权限改不了可能会用到下面这条命令
chattr -i 文件名
这条命令的具体用法可以百度,当时我权限改不了就是用的这个弄好的
5.构建hadoop集群
有的同学可能会好奇,明明是构建spark集群,为什么变成hadoop了。这是因为我们在这里要用spark做并行计算,但是要用hdfs作为数据的分布式存储。
下载hadoop,按照网上的操作完成即可。当时好像是遇到过某个节点没有被启动的情况,网上是有解决办法的。用jps查看进程,如果子节点上面也有了说明成功了。
6.基于yarn的spark部署
下载scala语言和spark,按照网上说的教程配置好了之后,先开启hadoop集群,然后利用
spark-shell --master yarn --deploy-mode client
打开spark
7.当spark集群也搭建好了,就要开始运行程序了。
在自己本地的idea先构建一个maven项目,编好自己需要测试的代码,打成jar包上传到master节点
在这里选择yarn-client或者yarn-cluster提交代码,具体选择哪个看个人需求。
这是我写的第一个博客,感觉自己语言组织并不是很好,但还是希望给大家一些帮助吧

阿里云轻量应用服务器构建spark集群

原文:https://www.cnblogs.com/yueyesi/p/12212891.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!