hadoop+hive+spark搭建（三）

swsrl 发表于 2017-12-17 21:14:11

一、spark安装
　　因为之前安装过hadoop，所以，在“Choose a package type”后面需要选择“Pre-build with user-provided Hadoop ”，然后，点击“Download Spark”后面的“spark-2.1.0-bin-without-hadoop.tgz”下载即可。Pre-build with user-provided Hadoop: 　　属于“Hadoop free”版，这样，下载到的Spark，可应用到任意Hadoop 版本。　　

　　上传spark软件包到任意节点上
　　解压缩spark软件包到/usr/local/目录下

　　重命名为spark文件夹
　　mvspark-2.1.0-bin-without-hadoop/ spark
　　重命名conf/目录下spark-env.sh.template为spark-env.sh
　　cp spark-env.sh.template spark-env.sh
　　重命名conf/目录下slaves.template为slaves
　　mv slaves.template slaves
二、配置spark
　　　编辑conf/spark-env.sh文件，在第一行添加以下配置信息:

　　export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop>　　＃上述表示Spark可以把数据存储到Hadoop分布式文件系统HDFS中，也可以从HDFS中读取数据。如果没有配置上面信息，Spark就只能读写本地数据，无法读写HDFS数据。
　　export JAVA_HOME=/usr/local/jdk64/jdk1.8.0
　　　编辑conf/slaves文件

三、验证spark是否安装成功
　　在spark目录中输入命令验证spark是否安装成功
　　bin/run-example SparkPi
　　bin/run-example SparkPi 2>&1 | grep "Pi is"　　　　　　　　#过滤显示出pi的值

　　web界面为8080端口

　　集群模式下shell
　　　pyspark --master spark://master:7077　　　　#python
　　提交应用
　　spark-submit
　　--class <main-class> 　　　　　　　　#需要运行的程序的主类，应用程序的入口点
　　--master <master-url> 　　　　　　　#Master URL，下面会有具体解释
　　--deploy-mode <deploy-mode> 　　#部署模式
　　... # other options 　　　　　　　　　 #其他参数
　　<application-jar> 　　　　　　　　　#应用程序JAR包
　　　　　　#传递给主类的主方法的参数

页: [1]

运维网's Archiver

hadoop+hive+spark搭建（三）