百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Hadoop集群搭建及Hive的安装与使用

bigegpt 2025-02-27 14:21 6 浏览

1、集群安装与配置

以centos为例,首先创建4台虚拟机,分别命名为hp001、hp002、hp003、hp004。

安装成功后,然后分别修改主机名(hp002、hp003、hp004同hp001)。

vim /etc/sysconfig/network # 编辑network文件修改

hostname hadoop1

cat /etc/sysconfig/network

cat /etc/sysconfig/network

NETWORKING=yes

HOSTNAME=hp001

再修改/etc/hosts文件(hp002、hp003、hp004同hp001),本机IP对应主机名。

2、 shell脚本编写

1、 配置ssh

注意在root账号下创建,否则没有权限。

1)安装ssh

yum apt-get install ssh

2)生成密钥对

ssh-keygen –t rsa –P '' –f ~/.ssh/

cd ~/.ssh

3)导入公钥数据到授权库中

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

scp /root/.ssh/* hp002@:/root/.ssh/

scp /root/.ssh/* hp003@:/root/.ssh/

scp /root/.ssh/* hp004@:/root/.ssh/

4)登录其他机器:

ssh hp002

Ifconfig

2、scp

3、rsync 远程同步工具 主要备份和镜像支持链接,设备。

rsync –rvl /soft/* hadoop@hp002:/soft

4、自定义脚本xsync,在集群上分发文件,循环复制文件到所以节点的相同目录下,

在hp001主机上/usr/loca/bin下创建xsync文件

然后 vi xsync编写如下代码保存

#!/bin/bash

pcount=$#

if(( pcount<1 )) ; then

echo no args;

exit;

fi

#获取文件名称

p1=$1;

fname=`basename $p1`;

dname=`cd -P $(dirname $p1) ; pwd`

curse=`whoami`;

for(( host=2 ; host<5; host=host+1 )) ; do

echo ===================== copy to hp00$host ============

rsync -rvl $dname/$fname $curse@hp00$host:$dname;

done

echo ========================== end =====================

4、编写/usr/local/bin/xcall脚本,在所有主机上执行相同的命令。

例如:xcall rm –rf /soft/jdk

在hp001主机上/usr/loca/bin下创建xcall文件

然后 vi xcall编写如下代码保存

#!/bin/bash

pcount=$#

if(( pcount<1 )) ; then

echo no args;

exit;

fi

#

echo =========== localhost =========

$@

for(( host=2 ; host<5; host=host+1 )) ; do

echo ===================== exe hp00$host ============

ssh hp00$host $@

done

echo ========================== end =====================

3、 各主机jdk安装

1、 下载jdk上传到hp001上

jdk_1.8.0_131.tar.gz

tar -zxvf jdk_1.8.0_131.tar.gz到/usr/local/jdk目录下

然后用xsync命令分别在hp002、hp003、hp004创建/usr/local/jdk目录,用xcall

命令分别复制到hp002、hp003、hp004。

2、 配置jdk环境变量,etc/profile文件中

export JAVA_HOME=/usr/local/jdk

export PATH=.:$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JRE_HOME=$JAVA_HOME/jre

用xcall命令分别复制到hp002、hp003、hp004的etc/profile文件中。

3、 验证安装是否成功

4、 Hadoop集群搭建

1、本机集群机器:四台对应hadoop1、hadoop2、hadoop3、hadoop4

hadoop1 node1作为名称节点

hadoop2 node2作为辅助名称节点

hadoop3 node3作为数据节点

hadoop4 node4作为数据节点

2、 安装hadoop

创建目录/home/hadoop/bigdata/,下载hadoop-2.7.2.tar.gz,上传解压tar -zxvf hadoop-2.7.2.tar.gz。用xcall命令分别复制到hp002、hp003、hp004。

3、配置环境变量etc/profile文件中

export HADOOP_HOME=/home/hadoop/bigdata/hadoop-2.7.2

export PATH=.:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

用xcall命令分别复制到hp002、hp003、hp004的etc/profile文件中。

4、 验证安装成功

hadoop version

5、 hadoop集群配置

完全分布式配置方式:配置文件
/home/hadoop/bigdata/hadoop-2.7.2/etc/hadoop/下的四个xml文件。

core-site.xml

fs.defaultFS

hdfs://hp001

hadoop.tmp.dir

/home/hadoop/bigdata

hdfs-site.xml

dfs.replication

3

dfs.namenode.secondary.http-address

hp002:50090

mapred-site.xml

mapreduce.framework.name

yarn

yarn-site.xml

yarn.resourcemanager.hostname

hp001

yarn.nodemanager.aux-services

mapreduce_shuffle


/home/hadoop/bigdata/hadoop-2.7.2/etc/hadoop/slaves文件修改为

hp003

hp004

在集群上分发以上5个文件

cd /home/hadoop/bigdata/hadoop-2.7.2/etc/hadoop

xsync core-site.xml

xsync hdfs-site.xml

xsync mapred-site.xml

xsync yarn-site.xml

xsync slaves

6、首次启动hadoop

1)格式化文件系统

$>hadoop namenode -format

2)启动所有进程

$>start-all.sh

3)查询进程

$>xcall jps

4)停止所有进程

$>stop-all.sh

5)查看文件系统

$hadoop fs -ls

6)创建文件系统

$>hadoop fs –mkdir –p /user/Ubuntu/data

$>hadoop fs –ls –R /

7、Hadoop包含三个模块

1)Hadoop common:

支持其他模块的工具模块

2)Hadoop Distributed File System (HDFS)

分布式文件系统,提供了对应用程序数据的高吞吐量访问。

进程:

NameNode 名称节点 NN

DataNode 数据节点 DN

SecondaryNamenode 辅助名称节点 2ndNN

3)Hadoop YARN:

作业调度与集群资源管理的框架。

进程

ResourceManager 资源管理 — RM

NodeManager 节点管理器—NM

4)Hadoop MapReduce:

基于yarn系统的对大数据集进行并行处理技术。

8、使用webui访问hadoop hdfs

1) hdfs http:/hp001:50070

2) dataNode http://hp003:50075

3) 2nn http://hp002:50090

五、hive安装与使用

1、下载hive

下载apache hive -2.3.4.bin.tar.gz

2、安装hive

cd /home/hadoop/bigdata/

tar -zxvf Apache Hive -2.3.4.bin.tar.gz

ln -s apache hive -2.3.4.bin apache hive

3、配置环境变量etc/profile文件中

export HIVE_HOME=/home/hadoop/bigdata/apache-hive

export PATH=.:$HIVE_HOME/bin:$PATH

4、查看是否安装成功

hive --version

6、 配置hive

修改
/home/hadoop/bigdata/apache-hive/conf/hive-env.sh文件指定hadoop目录


/home/hadoop/bigdata/apache-hive/conf/hive-default.xml.template 默认配置文件不要修改

创建hive-site.xml:
/home/hadoop/bigdata/apache-hive/conf/hive-site.xml,替换hive-site.xml中${system:java.io.temp.dir}=
/home/hadoop/bigdata/apache-hive。

7、配置Hive元数据库

Hive使用rdbms存储元数据,内置derby数据库。在
/home/hadoop/bigdata/apache-hive/bin/目录下初始化schema库,要启动hadoop集群:

Schematool --initSchema -dbType derby

8、 hive启动

1、 进入hive shell

$hive启动后如下图。

2、 Hive元数据库mysql使用及常用命令

Hive配置

Hive常见命令类似于mysql,本例子用mysql作为hive元数据库,首先配置hive-sxit.xml的mysql数据库驱动信息。

javax.jdo.option.ConnectionURL

jdbc:mysql://192.168.0.100:3306/hivedb

JDBC connect string for a JDBC metastore.

To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.

For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

Driver class name for a JDBC metastore

javax.jdo.option.ConnectionUserName

root

Username to use against metastore database

javax.jdo.option.ConnectionPassword

123456789

password to use against metastore database

Mysql数据库配置

1)创建数据库hivedb

2)赋予hive连接mysql用户的权限

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456789' WITH GRANT OPTION

3) 将mysql的驱动包放到hive下

放在
/home/hadoop/bigdata/apache-hive/lib/下

4)使用schematool初始化元数据。

schematool --initSchema -dbType mysql

HDFS存储位置配置

Hive配置文件里要用到HDFS的一些路径,需要先手动创建。

hadoop fs -mkdir -p /soft/hive/warehouse

hdfs dfs -mkdir -p /soft/hive/tmp

hdfs dfs -mkdir -p /soft/hive/log

hdfs dfs -chmod g+w /soft/hive/warehouse

hdfs dfs -chmod g+w /soft/hive/tmp

hdfs dfs -chmod g+w /soft/hive/log

3、 java连接hive

1)启动hive服务


/home/hadoop/bigdata/apache-hive/bin目录下执行命令$hive --service hiveserver2 start。

2) java代码连接hive到mysql中查询数据

Hive.server2.enable.doAs =false;

Hive.meatstroe.saslenabled=false;

Hive.server2.authentication=none

6、 关于电脑配置

电脑配置低了带不动啊!12GB内存都快用满了。

电脑配置如下都还可以,但是至少比下图中的要高才行。

相关推荐

Linux 系统启动完整流程

一、启动系统流程简介如上图,简述系统启动的大概流程:1:硬件引导UEFi或BIOS初始化,运行POST开机自检2:grub2引导阶段系统固件会从MBR中读取启动加载器,然后将控制权交给启动加载器GRU...

超专业解析!10分钟带你搞懂Linux中直接I/O原理

我们先看一张图:这张图大体上描述了Linux系统上,应用程序对磁盘上的文件进行读写时,从上到下经历了哪些事情。这篇文章就以这张图为基础,介绍Linux在I/O上做了哪些事情。文件系统什么是...

linux入门系列12--磁盘管理之分区、格式化与挂载

前面系列文章讲解了VI编辑器、常用命令、防火墙及网络服务管理,本篇将讲解磁盘管理相关知识。本文将会介绍大量的Linux命令,其中有一部分在“linux入门系列5--新手必会的linux命令”一文中已经...

Linux环境下如何设置多个交叉编译工具链?

常见的Linux操作系统都可以通过包管理器安装交叉编译工具链,比如Ubuntu环境下使用如下命令安装gcc交叉编译器:sudoapt-getinstallgcc-arm-linux-gnueab...

可算是有文章,把Linux零拷贝技术讲透彻了

阅读本文大概需要6.0分钟。作者:卡巴拉的树链接:https://dwz.cn/BaQWWtmh本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念...

linux软链接的创建、删除和更新

大家都知道,有的时候,我们为了省下空间,都会使用链接的方式来进行引用操作。同样的,在系统级别也有。在Windows系列中,我们称其为快捷方式,在Linux中我们称其为链接(基本上都差不多了,其中可能...

Linux 中最容易被黑客动手脚的关键目录

在Linux系统中,黑客攻击后常会针对关键目录和文件进行修改以实现持久化、提权或隐藏恶意活动。本文介绍下黑客最常修改的目录及其手法。一、/etc目录关键文件有:/etc/passwd和/et...

linux之间传文件命令之Rsync傻瓜式教程

1.前言linux之间传文件命令用什么命令?本文介绍一种最常用,也是功能强大的文件同步和传输工具Rsync,本文提供详细傻瓜式教程。在本教程中,我们将通过实际使用案例和最常见的rsync选项的详细说...

Linux下删除目录符号链接的方法

技术背景在Linux系统中,符号链接(symlink)是一种特殊的文件,它指向另一个文件或目录。有时候,我们可能需要删除符号链接,但保留其指向的目标目录。然而,在删除符号链接时可能会遇到一些问题,例如...

阿里云国际站注册教程:aa云服务器怎么远程链接?

在全球化的今天,互联网带给我们无以计数的便利,而云服务器则是其中的重要基础设施之一。这篇文章将围绕阿里云国际站注册、aa云服务器如何远程链接,以及服务器安全防护如Ddos防火墙、网站应用防护waf防火...

Linux 5.16 网络子系统大范围升级 多个新适配器驱动加入

Linux在数据中心中占主导地位,因此每个内核升级周期的网络子系统变化仍然相当活跃。Linux5.16也不例外,周一最新与网络相关的更新加入了大量的驱动和新规范的支持。一个较新硬件的驱动是Realt...

搭建局域网文件共享服务(Samba),手机电脑都能看喜欢的影视剧

作为一名影视爱好者,为了方便地观看自己喜欢的影视作品,在家里搞一个专门用来存放电影的服务器是有必要的。蚁哥选则用一台Ubuntu系统的电脑做为服务器,共享影音文件,其他同一个局域网内的电脑或手机可以...

分享一个实用脚本—centos7系统巡检

概述这周闲得慌,就根据需求写了差不多20个脚本(部分是之前分享过的做了一些改进),今天主要分享一个给平时运维人员用的centos7系统巡检的脚本,或者排查问题检查系统情况也可以用..实用脚本#!/bi...

Linux 中创建符号链接的方法

技术背景在Linux系统里,符号链接(SymbolicLink),也被叫做软链接(SoftLink),是一种特殊的文件,它指向另一个文件或者目录。符号链接为文件和目录的管理带来了极大的便利,比...

一文掌握 Linux 符号链接

符号链接(SymbolicLink),通常被称为“软链接”,是Linux文件系统中一种强大而灵活的工具。它允许用户创建指向文件或目录的“快捷方式”,不仅简化了文件管理,还在系统配置、软件开发和日...