Hadoop2.7.3环境搭建(HBase基础准备)

先安装工具：yum install -y net-tools

上传工具包

解压文件

tar -zxvf hadoop-2.7.3.tar.gz -C /opt/bigdata/

修改hadoop/etc/hadoop/hadoop-env.sh文件

修改hadoop/etc/hadoop/mapred-env.sh文件

修改hadoop/etc/hadoop/yarn-env.sh文件

指定Java安装路径

export JAVA_HOME=/opt/bigdata/jdk1.8

继续修改四个配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml

hadoop中的四个核心模块对应四个默认配置文件，指定默认的文件系统为HDFS，文件系统的访问入口，namenode所在的机器9000端口是早期Hadoop 1.x使用的，现在Hadoop 2.x使用的是8020，端口号用于节点直接内部通信，使用RPC通信机制。

修改etc/hadoop/core-site.xml文件

/tmp表示临时存储目录，系统每次重启会按照脚本预先设置好的删除里面的文件，重新自定义系统生成的文件路径，/tmp会被清空，无法保证数据文件安全性。

<name>hadoop.tmp.dir</name>

<value>/opt/bigdata/hadoop-2.7.3/data/tmp</value>

</property>

<name>fs.default.name</name>

<value>hdfs://masterhbase:8082</value>

</property>

<name>hadoop.proxyuser.hadoop.hosts</name>

</property>

<name>hadoop.proxyuser.hadoop.groups</name>

</property>

修改etc/hadoop/hdfs-site.xml文件

指定HDFS文件存储的副本数个数，默认是3个，这个数字要小于datanode的节点数

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/opt/bigdata/hadoop-2.7.3/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/opt/bigdata/hadoop-2.7.3/dfs/data</value>

</property>

<value>hdfs,hadoop</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

修改etc/hadoop/yarn-site.xml文件

<name>yarn.resourcemanager.hostname</name>

<value>masterhbase</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>masterhbase:8088</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>masterhbase:8081</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>masterhbase:8087</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.web-proxy.address</name>

<value>masterhbase:54315</value>

</property>

修改etc/hadoop/mapred-site.xml文件(注意重命名)

mv mapred-site.xml.template mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapred.job.tracker</name>

<value>masterhbase:9001</value>

</property>

<name>mapreduce.jobhistory.address</name>

<value>masterhbase:10020</value>

</property>

修改etc/hadoop/slaves文件,指定从节点的机器位置，添加主机名即可

三台机器配置NTP服务

把masterhbase作为整个集群的时间同步服务器

集群中所有其他服务器都来这台服务器masterhbase同步时间

检查每台服务器所在的时区

检查当前系统时区date –R

如果时区不是+0800,执行下列语句

（1）rm -rf /etc/localtime

（2）ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

安装ntp服务

查看ntp软件包是否已安装

rpm -qa | grep ntp

如果没有那就需要安装ntp

yum install -y ntp

修改ntp的配置文件（masterhbase）

vim /etc/ntp.conf

去掉下面这行下面的#，并把网段修改成自己的网段

restrict 192.168.7.0 mask 255.255.255.0 nomodify notrap

*注释掉一下几行

#server 0.centos.pool.ntp.org iburst

#server 1.centos.pool.ntp.org iburst

#server 2.centos.pool.ntp.org iburst

#server 3.centos.pool.ntp.org iburst

把下面前面两行的#号去掉，如果没有，需要手动去添加

server 127.127.1.0 #local clock

fudge 127.127.1.0 stratum 10

启动ntp服务(默认是开启),检查下配置

service ntpd start

chkconfig ntpd on

同步服务器的时间(masterhbase)操作这一步时关闭ntp服务

同步服务器的时间

ntpdate cn.pool.ntp.org

第2、3台向第一台同步时间，启动masterhbase的ntp服务

如果另外两台的ntp的进程开启，那么需要关闭

service ntpd stop

chkconfig ntpd off

ntpdate masterhbase

制定周期性时间同步计划任务

每10分钟同步一次服务器时间

crontab -e

*/10 * * * * /usr/sbin/ntpdate masterhbase

修改下目录权限

chmod -R 777 /opt/bigdata/

将masterhbase中hadoop拷贝到另外两台机器

scp -r /opt/bigdata/hadoop-2.7.3 root@masterslave1:/opt/bigdata

scp -r /opt/bigdata/hadoop-2.7.3 root@masterslave2:/opt/bigdata

格式化命令（masterhbase）

bin/hdfs namenode –format

成功了

启动hadoop

sbin/start-all.sh

jps检查下进程，hadoop搭建完成

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解