【DAY1】hadoop的安装配置基础学习笔记

gqinvs 发表于 2018-10-29 13:01:43

　　raid :
　　------------
　　1024b = 1k
　　1024k = 1m
　　1024m = 1g
　　1024g = 1t
　　1024t = 1p
　　1024p = 1e
　　1024e = 1z
　　1024z = 1y
　　hadoop
　　--------------
　　可靠地、可伸缩的、分布式计算的开源软件。
　　是一个框架，允许跨越计算机集群的大数据集分布式化处理，使用简单的编程模型(MapReduce)。
　　可从单个服务器扩展到几千台主机，每个节点提供了计算和存储功能。
　　不依赖于硬件处理HA,在应用层面上实现。
　　hadoop模块
　　-----------
　　1.hadoop common//公共类库，支持其他模块
　　2.HDFS//hadoop distributed file sytsem,hadoop分布式文件系统
　　3.Hadoop YARN//Yeah another resource ,作业调度和资源管理的框架。
　　4.Hadoop MapReduce//基于yarn系统的大数据集并行处理技术。
　　hadoop安装
　　---------------
　　1.jdk
　　JAVA_HOME
　　PATH
　　2.tar hadoop.tar.gz
　　3.配置环境变量
　　HADOOP_HOME
　　PATH
　　4.配置hadoop
　　1.standalone | local
　　a.没有守护进程，所有程序运行在同一JVM中，利于test和debug.
　　b.nothing!
　　1.下载2.7.2
　　2.tar开hadoop文件
　　3.移动/soft/hadoop
　　4.创建连接
　　..
　　5.配置环境变量
　　
　　...
　　HADOOP_HOME=/soft/hadoop
　　PATH=...:/soft/hadoop/bin:/soft/hadoop/sbin
　　6.测试安装是否成功
　　$>hadoop version
　　2.Pseudo distributed Mode//伪分布模式
[配置文件${hadoop_home}/etc/hadoop/*-site.xml]　　

　　

　　

　　
fs.defaultFS
　　

　　
hdfs://localhost/
　　

　　

　　

　　
dfs.replication=1
　　

　　
mapreduce.framework.name=yarn
　　

　　
yarn.resourcemanager.hostname=localhost
　　
yarn.nodemanager.aux-services=mapreduce_shuffle
　　3.[配置SSH]
　　1.安装ssh软件
　　$>sudo apt-get install ssh//安装服务端(sshd)和客户端(ssh)以及相关软件(ssh-keygen).
　　2.生成密钥对
　　$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
　　3.追加公钥到对方的认证库中。

　　$>cat>　　4.测试ssh到localhost
　　$>ssh localhost
　　4.格式化hdfs文件系统
　　#>hdfs namenode -format// hadoop/bin/hdfs
　　5.启动hdfs和yarn守护进程
　　$>start-dfs.sh
　　$>start-yarn.sh
　　$>stop-yarn.sh// hadoop/sbin/ 停止进程
　　$>sto-yarn.sh
　　6.配置目录的指定方式
　　a.默认方式
　　${hadoop_home}/etc/hadoop/*.xml
　　b.通过启动参数指定配置目录
　　$.start-dfs.sh --config /soft/hadoop/etc/hadoop command//hadoop/sbin
　　c.通过设置环境变量HADOOP_CONF_DIR
　　$>export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop_pseudo
　　7.目录操作
　　$>hadoop fs -mkdir -p /user/ubuntu//创建目录 -p 多级目录
　　$>hadoop fs -ls ///显示根目录
　　$>hadoop fs -ls /user/ubuntu/a//显示指定的目录
　　$>hadoop fs -ls -R///递归显示目录结构
　　$>hadoop fs -lsr///同上
　　$>hadoop fs -put local.txt /user/ubuntu/xx.txt//将本地文件put到hdfs文件系统。
　　8.查看帮助
　　$>hadoop fs//直接回车
　　$>hadoop fs -help put//查看put的具体信息
　　9.查看namenode和datanode在本地
　　$>cd /tmp/ubuntu-hadoop/dfs/name/...
　　$>cd /tmp/ubuntu-hadoop/dfs/data/...
　　10.查看log文件
　　$>${hadoop_home}/log
　　11.通过webui查看日志或者集群情况
　　http://localhost:50070///namenode web server port
　　http://localhost:8088///resourceManager,只有在本机访问才可以。hadoop集群信息
　　http://localhost:19888///historyServer
　　12.通过netstat查看网络端口占用情况
　　$>netstat -lupt//l:listener u:udp t:tcp p:program name
　　搭建完全分布式hadoop集群
　　-------------------------
　　1.安装java
　　2.创建user
　　略
　　3.安装hadoop
　　略
　　4.配置SSH
　　略
　　5.格式化
　　略
　　6.启动进程
　　start-dfs.sh | start-yarn.sh
　　7.创建目录
　　8.配置hadoop
　　a.克隆虚拟机4台
　　b.查看JRE HADOOP环境
　　c.配置hadoop配置文件
　　

　　

　　
fs.defaultFS
　　

　　
hdfs://namenode/
　　

　　

　　

　　
dfs.replication=3
　　

　　
mapreduce.framework.name=yarn
　　

　　
yarn.resourcemanager.hostname=namenode
　　
yarn.nodemanager.aux-services=mapreduce_shuffle
　　

　　
s200
　　
s300
　　
s400
　　
　　d.远程复制/etc/hosts/到远程主机
　　$>scp hosts root@s200:/etc/

页: [1]

运维网's Archiver

【DAY1】hadoop的安装配置基础学习笔记