scala+hadoop+spark环境搭建

jydg 发表于 2017-12-17 08:25:11

　　一、JDK环境构建
　　在指定用户的根目录下编辑.bashrc文件,添加如下部分：
　　

# .bashrc　　
# Source global definitions
　　if [ -f /etc/bashrc ]; then
　　. /etc/bashrc
　　fi
　　
# User specific aliases and functions
　　
JAVA_HOME=/data01/java/jdk1.8.0_121
　　
PATH=$JAVA_HOME/bin:$PATH
　　export PATH JAVA_HOME
　　

　　运行source .bashrc命令让环境变量生效
　　二、Scala环境构建
　　从http://www.scala-lang.org/download/2.10.4.html上下载Scala正确版本进行安装，本文以scala-2.12.2.tgz版本为例进行说明：
　　编辑.bashrc文件，设置scala环境变量
　　

# .bashrc　　
# Source global definitions
　　if [ -f /etc/bashrc ]; then
　　. /etc/bashrc
　　fi
　　
# User specific aliases and functions
　　
JAVA_HOME=/data01/java/jdk1.8.0_121
　　
PATH=$JAVA_HOME/bin:$PATH
　　

　　
#scala variables
　　
SCALA_HOME=/data01/spark/scala-2.12.2
　　
PATH=$PATH:$SCALA_HOME/bin
　　export PATH JAVA_HOME
　　export SCALA_HOME PATH
　　

　　我们还可以直接进入scala的环境进行测试,具体操作如下：

　　三、Hadoop环境构建
　　Hadoop安装包可以通过搜索hadoop-2.7.3.tar.gz来查找对应的安装包，
　　单机版hadoop安装方式请参见：http://www.zhongtiancai.com/post-143.html
　　伪分布模式安装方式请参见：http://www.jianshu.com/p/1e5ba77eb471和http://blog.csdn.net/zhu_xun/article/details/42077311
　　

# .bashrc　　
# Source global definitions
　　if [ -f /etc/bashrc ]; then
　　. /etc/bashrc
　　fi
　　
# User specific aliases and functions
　　
JAVA_HOME=/data01/java/jdk1.8.0_121
　　
PATH=$JAVA_HOME/bin:$PATH
　　

　　
#scala variables
　　
SCALA_HOME=/data01/spark/scala-2.12.2
　　
PATH=$PATH:$SCALA_HOME/bin
　　

　　
export PATH JAVA_HOME
　　
export SCALA_HOME PATH
　　

　　
#Hadoop Env
　　
export HADOOP_HOME=/data01/spark/hadoop-2.7.3
　　
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
　　
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
　　
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
　　

　　

　　http://IP:8099 Hadoop集群管理界面
　　http://IP:50070 HDFS管理界面
　　四、Spark环境构建
　　修改配置文件vi bashrc，最后一行添加以下代码
　　

export SPARK_HOME=/home/spark　　
export PATH=$PATH:$SPARK_HOME/bin
　　

　　

　　运行source bashrc使文件立即生效
　　运行spark-shell 命令，即可启动spark单机模式.
　　spark-shell启动时会出现太多的info信息，可以通过修改conf下面的log4j.properties.template=>log4j.properties，然后将其中的log.rootCategory=WARN,console修改成warn，世界也就清净了.
　　配置spark-env.sh，进入spark/conf
　　

#以下添加在末尾　　
exportSPARK_MASTER_IP=192.168.232.130
　　
exportSPARK_LOCAL_IP=192.168.232.130
　　

　　

　　注意：192.168.232.130为本机的ip
　　运行spark/sbin/start-all.sh 命令，即可启动伪分布式模式;
　　运行spark/sbin/stop-all.sh 命令，即可停止运行
　　另：spark集群的web端口默认为8080,安装成功后可以通过检查WebUI：http://IP:8080
　　如果需要修改Spark的默认端口号，那么可以将sbin/start-master.sh中的SPARK_MASTER_WEBUI_PORT修改为任意端口号
　　

if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]; then　　SPARK_MASTER_WEBUI_PORT=8888
　　
fi
　　

　　

　　测试Spark是否安装成功：可以通过spark/bin/run-exampleorg.apache.spark.examples.SparkPi来检测
　　Pi is roughly 3.14716
　　spark的安装可以参考：http://www.cnblogs.com/ivictor/p/5135792.html

页: [1]

运维网's Archiver

scala+hadoop+spark环境搭建