百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

zookeeper+hadoop+hbase+kafka+storm集群搭建

bigegpt 2024-09-12 11:19 36 浏览

准备工作

硬件环境

3台物理主机

192.168.0.191 – dc01

192.168.0.192 – dc02

192.168.0.193 – dc03

系统全部为centos6.8.

软件环境

1) jdk1.8.0_121

2) zookeeper-3.4.10

3) hadoop-2.6.5

4) hbase-1.2.6

5) kafka_2.11-0.10.2.0

6) apache-storm-1.1.0

jdk的安装在此不做赘述,有疑问可自行百度。

设置主机名

三台机器都需设置,后面所有操作都通过主机名连接。

vim /etc/sysconfig/network1

ip为192.168.0.191的机器修改为如下内容:

NETWORKING=yes

HOSTNAME=dc0112

其他两台机器分别设置为dc02和dc03。

修改host文件

vim /etc/hosts1

在末尾追加如下内容:

192.168.0.191 dc01

192.168.0.192 dc02

192.168.0.193 dc03123

三台机器做相同操作。

设置ssh免密码登录

以dc01为例,执行以下命令

ssh-keygen -t rsa

# 连续三次回车,即在本地生成了公钥和私钥,不设置密码

ssh-copy-id root@dc01

# 按提示输入dc01的密码

ssh-copy-id root@dc02

# 按提示输入dc02的密码

ssh-copy-id root@dc03

# 按提示输入dc03的密码

12345678910111213141516

如果端口不是默认的22则参照此处设置。

dc02和dc03重复dc01的操作,设置完成后任意两台机器之间不需要密码可直接登录,例如从dc01登录到dc03,只需在dc01输入”ssh dc03”即可。

开始安装

所有软件安装目录为/usr/local/

安装zookeeper

下载zookeeper安装文件zookeeper-3.4.10.tar.gz到/usr/local/下

执行以下命令:

#解压文件

tar -zxvf zookeeper-3.4.10.tar.gz

#修改文件夹名称

mv zookeeper-3.4.10 zookeeper

cd zookeeper/

#zookeeper配置文件名为zoo.cfg

cp conf/zoo_sample.cfg conf/zoo.cfg1234567

编辑zoo.cfg

vim conf/zoo.cfg1

修改后文件内容如下(主要添加最后三行):

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/usr/local/zookeeper/data

dataLogDir=/usr/local/zookeeper/log

# the port at which the clients will connect

clientPort=2181

# the maximum number of client connections.

# increase this if you need to handle more clients

#maxClientCnxns=60

#

# Be sure to read the maintenance section of the

# administrator guide before turning on autopurge.

#

# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

#

# The number of snapshots to retain in dataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable auto purge feature

#autopurge.purgeInterval=1

server.1=dc01:2888:3888

server.2=dc02:2888:3888

server.3=dc03:2888:38881234567891011121314151617181920212223242526272829303132

在zookeeper下新建data目录

mkdir data1

新增myid文件,该文件内容与zoo.cfg最后三行内容有关,server.x=host:port1:port2,myid中写入的就是x对应的值,不同主机文件内容不同。

echo '1' > data/myid1

使用scp命令将dc01上已配置好的zookeeper文件复制到其他两台机器

scp -r /usr/local/zookeeper root@dc02:/usr/local/zookeeper

scp -r /usr/local/zookeeper root@dc03:/usr/local/zookeeper12

操作完成后将dc02上的myid文件内容改为2,dc03中的myid内容改为3。

启动zookeeper

$zookeeper_home/bin/zkServer.sh start1

三个节点做同样操作,启动完成后可使用”zkServer.sh status”查看运行状态。

还有一个地方需要修改,默认情况下启动zookeeper后会在当前路径下生成一个zookeeper.out的日志文件,如果我们需要指定输出到固定路径,那么可以修改bin下的zkEnv.sh文件,找到ZOO_LOG_DIR并修改为指定路径即可。

安装hadoop

hbase基于hdfs存储,所以安装hbase前必须先安装hadoop,不同版本hbase对应的hadoop版本不同,安装前请确认兼容性。

下面开始安装:

在/usr/local/下新建hadoop目录,hadoop下再创建hdfs目录。

3、启动hbase

cd /usr/local/

mkdir -p hadoop/hdfs12

下载hadoop安装文件hadoop-2.6.5.tar.gz,放入hadoop目录下

tar -zxvf hadoop-2.6.5.tar.gz1

修改配置文件

cd hadoop-2.6.5/etc/hadoop/1

需要修改的配置文件有四个,hadoop-env.sh、core-site.xml、hdfs-site.xml、slaves,因为暂时不使用map-reduce所以不用配置yarn相关文件。

1、修改hadoop-env.sh

vim hadoop-env.sh1

修改JAVA_HOME为jdk安装路径(如果没有则添加一行)

export JAVA_HOME=/usr/local/java/jdk1.8.0_121

# 如果机器端口不是默认的22,还需要添加下面这一行指定端口号

# export HADOOP_SSH_OPTS="-p 1122"

# 1122为端口号,如果不添加执行./sbin/start-dfs.sh时会报如下错误:

# ssh: connect to host .. port 22: Connection refused12345

2、修改 core-site.xml

vim core-site.xml1

修改后内容如下:

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://dc01:9000</value>

<description>HDFS的URI,文件系统://namenode标识:端口号</description>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

<description>namenode上本地的hadoop临时文件夹,目录无需预先创建,会自动创建</description>

</property>

</configuration>

1234567891011121314

3、修改hdfs-site.xml

vim hdfs-site.xml1

修改后内容如下:

<configuration>

<property>

<name>dfs.name.dir</name>

<value>/usr/local/hadoop/hdfs/name</value>

<description>namenode上存储hdfs名字空间元数据,目录无需预先创建,会自动创建 </description>

</property>

<property>

<name>dfs.data.dir</name>

<value>/usr/local/hadoop/hdfs/data</value>

<description>datanode上数据块的物理存储位置,目录无需预先创建,会自动创建</description>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

<description>副本个数,配置默认是3,应小于datanode机器数量</description>

</property>

</configuration>

1234567891011121314151617181920

4、修改slaves

vim slaves1

将原来的localhost改成如下内容:

dc02

dc0312

修改完成后将安装目录copy到其他两台机器上:

scp -r /usr/local/hadoop root@dc02:/usr/local/hadoop

scp -r /usr/local/hadoop root@dc03:/usr/local/hadoop12

启动集群(只需在dc01操作)

第一次启动时需要先格式化,以后无需进行此操作。

cd /usr/local/hadoop/hadoop-2.6.5

#格式化

./bin/hdfs namenode -format

#启动集群

./sbin/start-dfs.sh12345

启动成功后可使用jps命令查看,dc01有NameNode和SecondaryNameNode进程,dc02和dc03有DataNode进程则集群启动成功。

安装hbase

集群机器划分:dc01作为NameNode节点,dc02和dc03作为DataNode节点。

下载hbase安装文件并放入/usr/local/目录下

1、解压并修改文件夹名称:

tar -zxvf hbase-1.2.6-bin.tar.gz

mv hbase-1.2.6 hbase12

2、修改配置文件,配置hbase集群需要修改三个配置文件,分别为hbase-env.sh、hbase-site.xml、regionservers。

cd hbase/conf/1

1)修改hbase-env.sh

vim hbase-env.sh1

需要修改两行内容

修改JAVA_HOME的值为jdk的安装目录,修改后如下:

export JAVA_HOME=/usr/local/java/jdk1.8.0_1211

修改HBASE_MANAGES_ZK,该行默认被注释掉了,默认使用hbase自带的zookeeper协调集群,我们需要把注释去掉并修改值为false,表示使用自己安装的zookeeper。修改如下:

export HBASE_MANAGES_ZK=false1

2)修改hbase-site.xml

vim hbase-site.xml1

在 中添加如下内容:

<property>

<name>hbase.rootdir</name>

<!-- 数据存储位置,需要和hadoop配置文件core-site.xml中的fs.default.name值一致 -->

<value>hdfs://dc01:9000/hbase</value>

</property>

<property>

<!-- 设置是否分布式环境,false表示单机,默认为false -->

<name>hbase.cluster.distributed</name>

<value>true</value>

</property>

<property>

<name>hbase.zookeeper.quorum</name>

<!-- 此处配置主机名 -->

<value>dc01,dc02,dc03</value>

</property>

<property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/usr/local/hbase/data/zookeeper</value>

</property>12345678910111213141516171819

3)修改regionservers

vim regionservers1

该文件配置数据存储在哪个节点,即DataNode节点的位置。默认为localhost,表示数据存储在本机,需要修改为两个DataNode节点的主机名,修改后内容如下:

dc02

dc0312

上述操作完成后使用scp命令将hbase所有文件复制到dc02和dc03。

scp -r /usr/local/hbase root@dc02:/usr/local/hbase

scp -r /usr/local/hbase root@dc03:/usr/local/hbase12

3、启动hbase

#启动

./bin/start-hbase.sh12

启动完成后可通过jps命令查看,dc01有HMaster进程,dc02和dc03有HRegionServer进程则表示集群启动成功。如果任一节点没有对应的进程则表示集群启动失败,可查看日志查找失败原因。此处需要注意一点,三台机器的系统时间相差不能太大,否则会出现启动失败的情况,同步系统时间后重试即可。

4、连接hbase

hbase提供了shell操作接口,使用一些命令连接hbase

./bin/hbase shell1

连接后可通过相应的shell命令操作hbase,hbase的操作此处不做讨论,请自行google。

hbase还可以通过第三方插件apache-phoenix进行连接,该插件支持以sql的方式操作hbase。下载和hbase版本对应的phoenix安装包,解压后将phoenix-[phoenix版本]-HBase-[hbase版本]-server.jar(本例中使用的为phoenix-4.10.0-HBase-1.2-server.jar)复制到hbase的lib目录下重启hbase即可(每个节点都需要进行此操作),phoenix操作方法请自行搜索资料学习。

安装kafka

下载kafka安装文件并放入/usr/local/目录下,解压

tar -zxvf kafka_2.11-0.10.2.0.tgz

mv kafka_2.11-0.10.2.0 kafka12

kafka的配置比较简单,只需修改config/下的server.properties文件即可,需要修改三处位置。

vim ./config/server.properties1

1)修改broker.id

该值在各个节点中不能重复,推荐使用机器ip地址最后一位,如dc01上该值为1,dc02上为2,dc03上为3。

2)修改log.dirs

该值表示日志文件存储位置,默认为/tmp/kafka-logs,使用该配置时机器重启后文件会被清空,需要修改为其他位置,建议修改为:

log.dirs=/usr/local/kafka/kafka-logs1

3)修改zookeeper.connect

这一项比较重要,表示kafka数据在zookeeper中的存储位置,以后连接kafka时会使用该值。本例中修改为:

zookeeper.connect=dc01:2181,dc02:2181,dc03:2181/kafka1

4)配置topic是否可删除,默认该项是被注释的,如需要支持topic删除请放开该注释

delete.topic.enable=true

5)配置是否自动创建topic,默认情况下Producer往一个不存在的Topic发送message时会自动创建这个Topic

auto.create.topics.enable=false

注:修改完成后将整个kafka目录复制到dc02和dc03中即完成集群配置(不要忘记修改broker.id,不同机器不能重复)。

启动kafka

nohup ./bin/kafka-server-start.sh ./config/server.properties &1

停止kafka

./bin/kafka-server-stop.sh &1

注:kafka的启动和停止需要分别在每个节点操作。

安装storm

下载storm安装文件放入/usr/local/目录,解压

tar -zxvf apache-storm-1.1.0.tar.gz

mv apache-storm-1.1.0 storm12

storm配置比较简单,只需修改storm.yaml

cd storm/conf/

vim storm.yaml12

添加以下内容:

# 注意:严格遵守ymal格式,相同层级关系必须左对齐

storm.zookeeper.servers:

- "dc01"

- "dc02"

- "dc03"

nimbus.seeds: ["dc01"]

drpc.servers:

- "dc01"

storm.local.dir: "/usr/local/storm/local-dir"

12345678910

上述配置storm.zookeeper.servers表示zookeeper节点,nimbus.seeds表示nimbus服务在dc01节点,drpc.servers表示drpc服务在dc01节点,storm.local.dir表示日志文件位置。

配置完成后将storm安装目录复制到dc02和dc03上。

scp -r /usr/local/storm/ root@dc02:/usr/local/storm/

scp -r /usr/local/storm/ root@dc03:/usr/local/storm/12

启动storm集群

在dc01上执行以下命令

cd /usr/local/storm

./bin/storm nimbus > /dev/null 2>&1 &

./bin/storm ui > /dev/null 2>&1 &

./bin/storm drpc > /dev/null 2>&1 &1234

在dc02和dc03上执行以下命令:

./bin/storm supervisor > /dev/null 2>&1 &1

等待启动完成后可通过浏览器访问http://dc01:8080查看集群运行状态。

总结

由于hbase需要基于zookeeper和hadoop运行,kafka和storm需要基于zookeeper运行。所以启动顺序应该为zookeeper->hadoop->hbase->kafka->storm,停止顺序相反。

相关推荐

得物可观测平台架构升级:基于GreptimeDB的全新监控体系实践

一、摘要在前端可观测分析场景中,需要实时观测并处理多地、多环境的运行情况,以保障Web应用和移动端的可用性与性能。传统方案往往依赖代理Agent→消息队列→流计算引擎→OLAP存储...

warm-flow新春版:网关直连和流程图重构

本期主要解决了网关直连和流程图重构,可以自此之后可支持各种复杂的网关混合、多网关直连使用。-新增Ruoyi-Vue-Plus优秀开源集成案例更新日志[feat]导入、导出和保存等新增json格式支持...

扣子空间体验报告

在数字化时代,智能工具的应用正不断拓展到我们工作和生活的各个角落。从任务规划到项目执行,再到任务管理,作者深入探讨了这款工具在不同场景下的表现和潜力。通过具体的应用实例,文章展示了扣子空间如何帮助用户...

spider-flow:开源的可视化方式定义爬虫方案

spider-flow简介spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。spider-flow特性支持css选择器、正则提取支持JSON/XML格式...

solon-flow 你好世界!

solon-flow是一个基础级的流处理引擎(可用于业务规则、决策处理、计算编排、流程审批等......)。提供有“开放式”驱动定制支持,像jdbc有mysql或pgsql等驱动,可...

新一代开源爬虫平台:SpiderFlow

SpiderFlow:新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。-精选真开源,释放新价值。概览Spider-Flow是一个开源的、面向所有用户的Web端爬虫构建平台,它使用Ja...

通过 SQL 训练机器学习模型的引擎

关注薪资待遇的同学应该知道,机器学习相关的岗位工资普遍偏高啊。同时随着各种通用机器学习框架的出现,机器学习的门槛也在逐渐降低,训练一个简单的机器学习模型变得不那么难。但是不得不承认对于一些数据相关的工...

鼠须管输入法rime for Mac

鼠须管输入法forMac是一款十分新颖的跨平台输入法软件,全名是中州韵输入法引擎,鼠须管输入法mac版不仅仅是一个输入法,而是一个输入法算法框架。Rime的基础架构十分精良,一套算法支持了拼音、...

Go语言 1.20 版本正式发布:新版详细介绍

Go1.20简介最新的Go版本1.20在Go1.19发布六个月后发布。它的大部分更改都在工具链、运行时和库的实现中。一如既往,该版本保持了Go1的兼容性承诺。我们期望几乎所...

iOS 10平台SpriteKit新特性之Tile Maps(上)

简介苹果公司在WWDC2016大会上向人们展示了一大批新的好东西。其中之一就是SpriteKitTileEditor。这款工具易于上手,而且看起来速度特别快。在本教程中,你将了解关于TileE...

程序员简历例句—范例Java、Python、C++模板

个人简介通用简介:有良好的代码风格,通过添加注释提高代码可读性,注重代码质量,研读过XXX,XXX等多个开源项目源码从而学习增强代码的健壮性与扩展性。具备良好的代码编程习惯及文档编写能力,参与多个高...

Telerik UI for iOS Q3 2015正式发布

近日,TelerikUIforiOS正式发布了Q32015。新版本新增对XCode7、Swift2.0和iOS9的支持,同时还新增了对数轴、不连续的日期时间轴等;改进TKDataPoin...

ios使用ijkplayer+nginx进行视频直播

上两节,我们讲到使用nginx和ngixn的rtmp模块搭建直播的服务器,接着我们讲解了在Android使用ijkplayer来作为我们的视频直播播放器,整个过程中,需要注意的就是ijlplayer编...

IOS技术分享|iOS快速生成开发文档(一)

前言对于开发人员而言,文档的作用不言而喻。文档不仅可以提高软件开发效率,还能便于以后的软件开发、使用和维护。本文主要讲述Objective-C快速生成开发文档工具appledoc。简介apple...

macOS下配置VS Code C++开发环境

本文介绍在苹果macOS操作系统下,配置VisualStudioCode的C/C++开发环境的过程,本环境使用Clang/LLVM编译器和调试器。一、前置条件本文默认前置条件是,您的开发设备已...