百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Centos7虚拟机搭建Hadoop集群环境教程

bigegpt 2025-02-27 14:21 8 浏览

一、安装虚拟机

  • 点击从光盘或映像中安装,选择创建虚拟机的镜像
  • 继续下一步,点击自定设置,修改虚拟机的名称
  • 打开虚拟机设置菜单
  • 点击网络适配器
  • 确保虚拟机与宿主机网络共享
  • 然后正式开始运行安装虚拟机,配置语言、系统安装位置、网络和主机名
  • 修改主机名称
  • 设置root密码后,按提示重启后,系统安装成功。


二、虚拟机初始化配置

系统重启后,需要登录需要输入用户名:root,以及刚才配置等root密码。

可以用ifconfig命令查看当前机器的IP:

ifconfig

如果虚拟机新安装的centos没有安装ifconfig命令报错,可以执行如下命令:

yum -y install net-tools

如果显示mirrors无法连接,则可能是网络没有启用联网功能,需要执行以下命令:

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

初始信息如下:

#网络类型为以太网
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
#是否自动获取IP(none和static代表静态手动分配、dhcp代表自动获取IP地址)
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=44cea-dcf6-3d3c-bd4e-98e47d9ffcy9
#网卡设备名
DEVICE=ens33
#是否随网络服务启动,ens33生效
ONBOOT=no

修改配置ONBOOT=no----->ONBOOT=yes即启动联网功能。 另外,我们在上述文件配置静态IP需要做如下修改和添加:

BOOTPROTO=static
ONBOOT=yes
#IP地址
IPADDR=192.168.2.144
#子网掩码
NETMASK=255.255.255.0
#网关
GATEWAY=192.168.2.1
#DNS
DNS1=114.114.114.114

保存后,输入以下命令激活,重启网络服务:

service network restart

之后即可执行ifconfig命令了。

使用centos注意关闭防火墙:

#暂时关闭防火墙
systemctl stop firewalld
#永久关闭防火墙
systemctl disable firewalld

三、Hadoop集群规划

假设我们有5台Centos系统机器,一台作为Master,四台作为slaves。五台机器处于同一局域网内。

假设我们规划了五台机器的名称,并获得其IP如下:

master 172.18.0.5 slave1 172.18.0.1 slave2 172.18.0.2 slave3 172.18.0.3 slave4 172.18.0.4 为了更好的在Shell中区分这五台主机,我们分别在五台主机中执行如下命令:

sudo vim /etc/hostname

master的/etc/hostname添加:

master

同样,slave1的/etc/hostname添加:

slave1

所有5台机器都变更后,添加同样的配置:

sudo vim /etc/hosts

配置如下:

127.0.0.1 localhost
172.18.0.5 master 
172.18.0.1 slave1
172.18.0.2 slave2
172.18.0.3 slave3
172.18.0.4 slave4

重启系统后,hostname才会更新:

sudo reboot

四、安装和配置ssh

首先,五台电脑分别运行如下命令,测试是否能连接到本地localhost:

ssh localhost

登陆成功会显示如下结果:

Last login: Mon Feb 29 18:29:55 2016 from ::1 如果不能登陆本地,请运行如下命令,安装openssh-server,并生成ssh公钥。

sudo yum -y install openssh-server
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

保证所有电脑都能连同本地localhost后,还需要让master能免密登陆slaves。在master执行如下命令,将master的id_rsa.pub传送给所有slaves:

scp ~/.ssh/id_rsa.pub root@slave1:/home/
scp ~/.ssh/id_rsa.pub root@slave2:/home/
scp ~/.ssh/id_rsa.pub root@slave3:/home/
scp ~/.ssh/id_rsa.pub root@slave4:/home/

之后在所有slaves电脑上执行以下命令,查看目录中是否有id_rsa.pub存在:

ls ~

接着,在所有slaves电脑上执行以下命令,将master公钥添加到对应节点上:

cat /home/id_rsa.pub >> ~/.ssh/authorized_keys
rm /home/id_rsa.pub

如果五台机器上用户名都一样,例如都是user,则master可以登陆任何slaves:

ssh slave1

如果五台机器用户名不一样,还需要在master修改~/.ssh/config文件,如果没有该文件,自己创建文件。

Host master
    user XXX
Host slave1
    user XXX

然后再免密登陆:

ssh slave1

五、JDK安装

五台机器都按以下方式安装JDK: 下载JDK,解压:

tar -zxvf jdk-7u79-linux-x64.tar.gz -C /home/

设置环境变量:

vim ~/.bash_profile
export JAVA_HOME=/home/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
# Setting PATH for Hadoop
export HADOOP_HOME=/home/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source .bash_profile

验证java是否配置成功:

java -version

六、安装hadoop, 填写配置文件

下载好的hadoop安装包文件解压到目标目录下,hadoop根目录下有以下几个重要的目录:

sbin:启动或停止hadoop相关服务的脚本。 bin:对hadoop相关服务(HDFS、YARN)进行操作的脚本。 etc:hadoop的配置文件目录。 share:hadoop的依赖jar包和文档。 lib:hadoop的本地库。 我们填写的配置文件都位于hadoop/etc目录下。 #####hdfs相关的配置文件 以下配置文件是和hdfs组件相关的,需要填好才能启用hdfs的相关功能:

/etc/hadoop/hadoop-env.sh文件里需要给hadoop配置java环境:

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home

/etc/hadoop/core-site.xml文件用于配置hadoop运行时产生的临时数据的存储目录;以及hdfs的namenode的地址和端口号。


  
    
    hadoop.tmp.dir
    file:/data/hadoop/tmp
    默认存在/tmp目录
  
  
    
    fs.defaultFS
    hdfs://master:9000
    指定hdfs的主节点
  

/etc/hadoop/hdfs-site.xml文件需要配置hdfs上数据的副本系数(包含原数据)、namenode和datanode数据存放的目录和secondarynamenode节点。


  
    
    dfs.replication
    2
    指定hdfs的副本数
  
  
    dfs.namenode.name.dir
    file:/home/hadoop/hadoop/tmp/dfs/name
    指定namenode数据的目录
  
  
    dfs.datanode.data.dir
    file:/home/hadoop/hadoop/tmp/dfs/data
    指定datanode数据的目录
  
  
    dfs.namenode.secondary.http-address
    master:9001
    指定secondarynamenode的节点
  

/etc/hadoop/workers(slaves),填写从属节点的主机名:

slave1
slave2
slave3
slave4

这个配置文件用于记录这个集群的所有datanode的主机名。

七、yarn相关的配置文件

以下配置文件是和yarn组件相关的,需要填好才能启用yarn的相关功能:


/etc/hadoop/mapred-site.xml文件指定mapreduce运行在什么地方:


  
    mapreduce.framework.name
    yarn
    指定MapReduce运行在yarn上
  
  
    mapreduce.reduce.shuffle.memory.limit.percent
    0.10
  

/etc/hadoop/yarn-site.xml文件指定yarn的主节点等信息:


  
    yarn.resourcemanager.hostname
    master
    指定yarn的主节点
  
  
    yarn.nodemanager.aux-services
    mapreduce_shuffle
    允许MapReduce运行在yarn上
  
  
    yarn.log-aggregation-enable
    true
  
  
    yarn.log-aggregation.retain-seconds
    604800
  

八、启动hdfs

在/bin目录下执行以下命令,格式化hdfs的文件系统,安装后执行一次即可:

hdfs namenode -format

格式化成功后,配置文件设置的tmp目录下会出现临时数据的目录结构。 在/sbin目录下执行以下命令即可启动hdfs服务:

./start-dfs.sh

执行完后,在任意目录下输入以下命令可以查看当前启动了哪些进程:

jps

如果上述命令可以查看到这个进程,则可以在浏览器中查看hdfs情况,这一步不同版本端口不太一样:

2.x:http://localhost:50070 3.x:http://localhost:9870 在/sbin目录下执行以下命令即可启动hdfs服务:

./stop-dfs.sh

九、启动yarn

在/sbin目录下执行以下命令,执行RM和NM进程:

sbin/start-yarn.sh

jps命令后可以查看到多了rm和nm的进程。或者在浏览器中键入以下地址,可以查看到RM的状况:http://localhost:8088 以Hadoop提供的测试文件
/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar为例:

hadoop jar hadoop-mapreduce-examples-2.7.7.jar pi 2 3

在/sbin目录下执行以下命令,关闭RM和NM进程:

sbin/stop-yarn.sh

相关推荐

Linux 系统启动完整流程

一、启动系统流程简介如上图,简述系统启动的大概流程:1:硬件引导UEFi或BIOS初始化,运行POST开机自检2:grub2引导阶段系统固件会从MBR中读取启动加载器,然后将控制权交给启动加载器GRU...

超专业解析!10分钟带你搞懂Linux中直接I/O原理

我们先看一张图:这张图大体上描述了Linux系统上,应用程序对磁盘上的文件进行读写时,从上到下经历了哪些事情。这篇文章就以这张图为基础,介绍Linux在I/O上做了哪些事情。文件系统什么是...

linux入门系列12--磁盘管理之分区、格式化与挂载

前面系列文章讲解了VI编辑器、常用命令、防火墙及网络服务管理,本篇将讲解磁盘管理相关知识。本文将会介绍大量的Linux命令,其中有一部分在“linux入门系列5--新手必会的linux命令”一文中已经...

Linux环境下如何设置多个交叉编译工具链?

常见的Linux操作系统都可以通过包管理器安装交叉编译工具链,比如Ubuntu环境下使用如下命令安装gcc交叉编译器:sudoapt-getinstallgcc-arm-linux-gnueab...

可算是有文章,把Linux零拷贝技术讲透彻了

阅读本文大概需要6.0分钟。作者:卡巴拉的树链接:https://dwz.cn/BaQWWtmh本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念...

linux软链接的创建、删除和更新

大家都知道,有的时候,我们为了省下空间,都会使用链接的方式来进行引用操作。同样的,在系统级别也有。在Windows系列中,我们称其为快捷方式,在Linux中我们称其为链接(基本上都差不多了,其中可能...

Linux 中最容易被黑客动手脚的关键目录

在Linux系统中,黑客攻击后常会针对关键目录和文件进行修改以实现持久化、提权或隐藏恶意活动。本文介绍下黑客最常修改的目录及其手法。一、/etc目录关键文件有:/etc/passwd和/et...

linux之间传文件命令之Rsync傻瓜式教程

1.前言linux之间传文件命令用什么命令?本文介绍一种最常用,也是功能强大的文件同步和传输工具Rsync,本文提供详细傻瓜式教程。在本教程中,我们将通过实际使用案例和最常见的rsync选项的详细说...

Linux下删除目录符号链接的方法

技术背景在Linux系统中,符号链接(symlink)是一种特殊的文件,它指向另一个文件或目录。有时候,我们可能需要删除符号链接,但保留其指向的目标目录。然而,在删除符号链接时可能会遇到一些问题,例如...

阿里云国际站注册教程:aa云服务器怎么远程链接?

在全球化的今天,互联网带给我们无以计数的便利,而云服务器则是其中的重要基础设施之一。这篇文章将围绕阿里云国际站注册、aa云服务器如何远程链接,以及服务器安全防护如Ddos防火墙、网站应用防护waf防火...

Linux 5.16 网络子系统大范围升级 多个新适配器驱动加入

Linux在数据中心中占主导地位,因此每个内核升级周期的网络子系统变化仍然相当活跃。Linux5.16也不例外,周一最新与网络相关的更新加入了大量的驱动和新规范的支持。一个较新硬件的驱动是Realt...

搭建局域网文件共享服务(Samba),手机电脑都能看喜欢的影视剧

作为一名影视爱好者,为了方便地观看自己喜欢的影视作品,在家里搞一个专门用来存放电影的服务器是有必要的。蚁哥选则用一台Ubuntu系统的电脑做为服务器,共享影音文件,其他同一个局域网内的电脑或手机可以...

分享一个实用脚本—centos7系统巡检

概述这周闲得慌,就根据需求写了差不多20个脚本(部分是之前分享过的做了一些改进),今天主要分享一个给平时运维人员用的centos7系统巡检的脚本,或者排查问题检查系统情况也可以用..实用脚本#!/bi...

Linux 中创建符号链接的方法

技术背景在Linux系统里,符号链接(SymbolicLink),也被叫做软链接(SoftLink),是一种特殊的文件,它指向另一个文件或者目录。符号链接为文件和目录的管理带来了极大的便利,比...

一文掌握 Linux 符号链接

符号链接(SymbolicLink),通常被称为“软链接”,是Linux文件系统中一种强大而灵活的工具。它允许用户创建指向文件或目录的“快捷方式”,不仅简化了文件管理,还在系统配置、软件开发和日...