百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

「大数据」「Hadoop」分布式集群环境的搭建

bigegpt 2025-02-27 14:21 8 浏览

一般情况下Hadoop集群的组成主要有HDFS集群和Yarn集群。

一个HDFS集群由一个NameNode节点和多个DataNode节点组成,至少需要3个节点组成一个健康的HDFS集群。另外还有两个节点是:助手节点Secondary NameNode和HA模式下NameNode的备份JournalNode,SNN可以独立也可以与NN放一起,高可用的JournalNode就需要独立启动才有意义(至少3个节点或以上奇数个)。

一个Yarn集群由一个ResourceManager节点和多个NodeManager节点组成(Master/Slave结构),同样一般也是3个节点组成。Yarn集群也有一 个节点:历史记录服务器JobhistoryServer,默认关闭,也可独立启动,或与RM放在一起。ResourceManager的HA用到的是zookeeper服务来实现的。

Yarn与HDFS属于两个不同的集群,一个负责文件存储,一个负责作业调度,但是通常会把NodeManager和DataNode放在一起是尽可能使计算作业就在存储节点上执行(“计算向数据移动”)。

两个集群节点清单


ZooKeeper是Hadoop生态中解决节点高可用的另外的技术,集群部署的话也同样需要至少3个节点或以上的奇数个,略。

环境需求

  • 主机,linux版本如centos7.3,至少要能组3个节点,将Yarn与HDFS启动在同节点上,建一个专用用户,全程用此用户操作。创建数据目录。
  • JAVA,至少JDK1.8+,配置JAVA_HOME 环境变量。
sudo yum install java-11-openjdk.x86_64 java-11-openjdk-devel.x86_64
## 加入JAVA_HOME,也可是用户文件 .bashrc
vi /etc/profile 
## 文件最后增加:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-0.el7_9.x86_64
export PATH=$PATH:$JAVA_HOME/bin
## 生效:或source ~/.bashrc
source /etc/profile
## 创建目录
mkdir -p /data/hdfs/data; mkdir -p /data/hdfs/name; mkdir -p /tmp/hadoop;
  • 网络,同一局域网,固定IP,和域名解析(修改hosts文件或有DNS服务器)hadoop依赖域名找节点的。包括客户端也要DNS解析。
## 固定IP设置在/etc/sysconfig/network-scripts/ifcfg-... 的文件中
## 主机名在/etc/hostname,快速生效下面命令,在不同机器上操作名称不同。
hostnamectl set-hostname hadoop201
## 域名用hosts举例,各节点一致,包括客户端的主机。
vi /etc/hosts
## 主机名与ip映射
192.168.16.201 hadoop201
192.168.16.202 hadoop202
192.168.16.203 hadoop203
  • 集群启动时,用到了SSH,需要配置当前用户ssh免密登陆到各个节点机器,包括自己。
## 生成公钥
ssh-keygen -t rsa
##授权公钥,最后把所有节点上的authorized_keys内容累加一下
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  • 安装Hadoop,可去hadoop.apache.org下载编译好的包,直接解压,然后配置环境变量。
tar -zxf hadoop-3.3.0.tar.gz -C /usr/local
## 加入HADOOP_HOME
vi /etc/profile ## 文件结尾加入
export HADOOP_HOME=/usr/local/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
## 生效
source /etc/profile
  • Hadoop的jvm参数,配置在hadoop-env.sh中,略。各组件环境变量配置,以及SSH非22端口,还需配置这个HADOOP_SSH_OPTS。
export HADOOP_HOME=/usr/local/hadoop-3.3.0
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
## 指定启动用户
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_NODEMANAGER_USER=root
export YARN_RESOURCEMANAGER_USER=root
## ssh参数
export HADOOP_SSH_OPTS="-p 62233"

各服务的配置文件

各配置文件结构类似。在各自的xml文件中配置中的。各个节点配置相同,可以scp复制到各节点。

  • core-site.xml,配置全局参数,主要是hdfs集群名,就是NameNode的RPC地址,和临时目录。HA配置的zookeeper也在这儿配置,略。

 ? ?fs.defaultFS
 ? ?hdfs://hadoop201:9000


 ? ?hadoop.tmp.dir
 ? ?/tmp/hadoop

  • 日志文件大小可在core-site.xml配置,也可默认就行。存放目录默认在$HADOOP_HOME/logs,需要在log4j.properties配置hadoop.log.dir。log4j配置略。
  • hdfs-site.xml,hdfs节点配置:备份数、数据目录,web管理端口(默认也行)。还有NN的HA配置,略。

 ? ?dfs.namenode.http-address
 ? ?hadoop201:9870


 ? ?dfs.replication
 ? ?2


 ? ?dfs.datanode.data.dir
 ? ?/data/hdfs/data


 ? ?dfs.namenode.name.dir
 ? ?/data/hdfs/name

  • mapred-site.xml,mapreduce程序的配置、历史服务器配置,需要指定Yarn做调度。mapreduce.application.classpath默认找$HADOOP_MAPRED_HOME环境变量配置的目录,如果没有配置就需要在此文件中指定全路径。

 ? ?mapreduce.framework.name
 ? ?yarn

  • yarn-site.xml,Yarn集群的配置,指定RM的位置,MR程序获取数据的方式等。还有RM的HA配置,多个RM的Host及zookeeper集群,略。

 ? ?yarn.resourcemanager.hostname
 ? ?hadoop201


 ? ?yarn.nodemanager.aux-services
 ? ?mapreduce_shuffle

  • works,hdfs的DataNode节点清单,也是yarn的NodeManager节点清单。
hadoop201
hadoop202
hadoop203

集群启动

主节点上启动HDFS的NameNode、Secondary NameNode、DataNode,以及Yarn的ResourceManager、NodeManager,从节点上启动HDFS的DataNode和Yarn的NodeManager。

  • 在主节点启动,Hadoop会通过ssh将整个集群启动:
## NN节点需要格式化
hdfs namenode -format
start-dfs.sh
start-yarn.sh
## 停止对应的是stop....sh
## 修改重要NN、RM等节点名称后,需要清理之前的数据,或者修改集群ID
rm -rf /data/hdfs/data/*; rm -rf /data/hdfs/name/*; rm -rf /usr/local/hadoop-3.3.0/logs/*
  • 如果需要启动单个服务:
## hdfs: 单独起NN、DN、2NN
bin/hdfs --daemon start namenode | datanode | secondarynamenode
## yarn: 单独起RM、NM
yarn --daemon start resourcemanager | nodemanager
## HistoryServer: 单独启动历史服务器
mapred --daemon start historyserver ? ?
## 对应的停止是... stop ...

相关推荐

Linux 系统启动完整流程

一、启动系统流程简介如上图,简述系统启动的大概流程:1:硬件引导UEFi或BIOS初始化,运行POST开机自检2:grub2引导阶段系统固件会从MBR中读取启动加载器,然后将控制权交给启动加载器GRU...

超专业解析!10分钟带你搞懂Linux中直接I/O原理

我们先看一张图:这张图大体上描述了Linux系统上,应用程序对磁盘上的文件进行读写时,从上到下经历了哪些事情。这篇文章就以这张图为基础,介绍Linux在I/O上做了哪些事情。文件系统什么是...

linux入门系列12--磁盘管理之分区、格式化与挂载

前面系列文章讲解了VI编辑器、常用命令、防火墙及网络服务管理,本篇将讲解磁盘管理相关知识。本文将会介绍大量的Linux命令,其中有一部分在“linux入门系列5--新手必会的linux命令”一文中已经...

Linux环境下如何设置多个交叉编译工具链?

常见的Linux操作系统都可以通过包管理器安装交叉编译工具链,比如Ubuntu环境下使用如下命令安装gcc交叉编译器:sudoapt-getinstallgcc-arm-linux-gnueab...

可算是有文章,把Linux零拷贝技术讲透彻了

阅读本文大概需要6.0分钟。作者:卡巴拉的树链接:https://dwz.cn/BaQWWtmh本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念...

linux软链接的创建、删除和更新

大家都知道,有的时候,我们为了省下空间,都会使用链接的方式来进行引用操作。同样的,在系统级别也有。在Windows系列中,我们称其为快捷方式,在Linux中我们称其为链接(基本上都差不多了,其中可能...

Linux 中最容易被黑客动手脚的关键目录

在Linux系统中,黑客攻击后常会针对关键目录和文件进行修改以实现持久化、提权或隐藏恶意活动。本文介绍下黑客最常修改的目录及其手法。一、/etc目录关键文件有:/etc/passwd和/et...

linux之间传文件命令之Rsync傻瓜式教程

1.前言linux之间传文件命令用什么命令?本文介绍一种最常用,也是功能强大的文件同步和传输工具Rsync,本文提供详细傻瓜式教程。在本教程中,我们将通过实际使用案例和最常见的rsync选项的详细说...

Linux下删除目录符号链接的方法

技术背景在Linux系统中,符号链接(symlink)是一种特殊的文件,它指向另一个文件或目录。有时候,我们可能需要删除符号链接,但保留其指向的目标目录。然而,在删除符号链接时可能会遇到一些问题,例如...

阿里云国际站注册教程:aa云服务器怎么远程链接?

在全球化的今天,互联网带给我们无以计数的便利,而云服务器则是其中的重要基础设施之一。这篇文章将围绕阿里云国际站注册、aa云服务器如何远程链接,以及服务器安全防护如Ddos防火墙、网站应用防护waf防火...

Linux 5.16 网络子系统大范围升级 多个新适配器驱动加入

Linux在数据中心中占主导地位,因此每个内核升级周期的网络子系统变化仍然相当活跃。Linux5.16也不例外,周一最新与网络相关的更新加入了大量的驱动和新规范的支持。一个较新硬件的驱动是Realt...

搭建局域网文件共享服务(Samba),手机电脑都能看喜欢的影视剧

作为一名影视爱好者,为了方便地观看自己喜欢的影视作品,在家里搞一个专门用来存放电影的服务器是有必要的。蚁哥选则用一台Ubuntu系统的电脑做为服务器,共享影音文件,其他同一个局域网内的电脑或手机可以...

分享一个实用脚本—centos7系统巡检

概述这周闲得慌,就根据需求写了差不多20个脚本(部分是之前分享过的做了一些改进),今天主要分享一个给平时运维人员用的centos7系统巡检的脚本,或者排查问题检查系统情况也可以用..实用脚本#!/bi...

Linux 中创建符号链接的方法

技术背景在Linux系统里,符号链接(SymbolicLink),也被叫做软链接(SoftLink),是一种特殊的文件,它指向另一个文件或者目录。符号链接为文件和目录的管理带来了极大的便利,比...

一文掌握 Linux 符号链接

符号链接(SymbolicLink),通常被称为“软链接”,是Linux文件系统中一种强大而灵活的工具。它允许用户创建指向文件或目录的“快捷方式”,不仅简化了文件管理,还在系统配置、软件开发和日...