百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

【大数据】Hive Join 的原理与机制

bigegpt 2024-08-16 14:25 2 浏览

一、概述

Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进行联合查询和分析。

Hive 中 的 Join 可分为 Common Join(Reduce阶段完成join)和 Map Join(Map 阶段完成 join)。

Hive中的JOIN操作是通过MapReduce或Tez任务来执行的,具体的执行过程如下:

  1. 数据分片:Hive将参与JOIN操作的表按照指定的JOIN条件进行分片。每个分片是表的一个子集,用于并行处理。
  2. Map阶段:在Map阶段,Hive会为每个分片创建一个Map任务,并从输入数据中提取JOIN条件所需要的键值对。对于每个键值对,Hive会将键发送到对应的Reducer节点,并将值存储在中间缓存中。
  3. Shuffle阶段:在Shuffle阶段,Hive将具有相同键的键值对发送到相同的Reducer节点。这个过程称为数据洗牌,它确保具有相同键的数据被发送到同一个Reducer节点进行处理。
  4. Reduce阶段:在Reduce阶段,Hive会为每个Reducer节点创建一个Reduce任务。每个Reduce任务接收来自不同Mapper节点的具有相同键的键值对,并执行JOIN操作。在JOIN操作中,Hive会根据JOIN条件将具有相同键的记录组合在一起,生成JOIN结果。

【注意】Hive中的JOIN操作是通过两个或多个表的列进行连接的。JOIN条件指定了哪些列用于匹配。Hive支持多种类型的JOIN,包括INNER JOIN(内连接)、LEFT JOIN(左连接)、RIGHT JOIN(右连接)和FULL JOIN(全连接),可以根据需要选择适当的JOIN类型。

此外,Hive还提供了一些优化技术来提高JOIN操作的性能,例如对表进行分区和对中间结果进行压缩。这些技术可以减少数据移动和存储开销,加快JOIN操作的执行速度。

【总结】Hive中的JOIN操作通过MapReduce或Tez任务进行执行,包括数据分片、Map阶段、Shuffle阶段和Reduce阶段。它使用JOIN条件将具有相同键的记录组合在一起,生成JOIN结果。通过选择适当的JOIN类型和使用优化技术,可以提高JOIN操作的性能。

二、环境准备

如果已经有了环境了,可以忽略,如果想快速部署环境可以参考我这篇文章:通过 docker-compose 快速部署 Hive 详细教程

# 登录容器
docker exec -it hive-hiveserver2 bash
# 连接hive
beeline -u jdbc:hive2://hive-hiveserver2:10000  -n hadoop

三、Hive JOIN 类型

Hive是一个基于Hadoop的数据仓库工具,用于处理大规模数据集。在Hive中,JOIN是一种常用的操作,用于将两个或多个表中的数据按照指定的条件进行关联。



Hive支持多种JOIN类型,包括:

  • 内连接(inner join 或者简写成 join:只返回两个表中匹配的行。内连接基于一个或多个条件(通常是相等条件),匹配两个表中的行,并将匹配的行返回为结果。只有满足条件的行才会被包含在结果中。

示例:

SELECT *
FROM table1
JOIN table2
ON table1.id = table2.id;
  • 左外连接(left outer join 或者简写成 left join:返回左表中的所有行以及与右表匹配的行。如果右表中没有匹配的行,则对应的结果列将包含NULL值。

示例:

SELECT *
FROM table1
LEFT JOIN table2
ON table1.id = table2.id;
  • 右外连接(right outer join 或者简写成 right join:返回右表中的所有行以及与左表匹配的行。如果左表中没有匹配的行,则对应的结果列将包含NULL值。

示例:

SELECT *
FROM table1
RIGHT JOIN table2
ON table1.id = table2.id;
  • 全外连接(full outer join 或者简写成 full join:返回两个表中的所有行,如果某一行在另一个表中没有匹配,则对应的结果列将包含NULL值。
SELECT *
FROM table1
FULL OUTER JOIN table2
ON table1.id = table2.id;

这些JOIN类型可以根据具体的业务需求选择适当的类型。在Hive中,可以使用JOIN关键字来执行JOIN操作,并指定要连接的表以及连接条件。例如,使用"INNER JOIN""LEFT OUTER JOIN""RIGHT OUTER JOIN""FULL OUTER JOIN"等来指定JOIN类型。

根据具体的需求和数据情况,你可以选择不同的JOIN类型来满足查询需求。

四、Map,Shuffle,Reduce三阶段

MapReduce的全套过程分为三个大阶段,分别是MapShuffleReduce。结合多篇资料,我最终确定划分11个小步骤来描述这个过程,在后续的内容中我也会结合一部分源码来进行剖析。

1)Map 阶段

在Map阶段,原始数据被分割成多个大小相同的数据块,每个数据块被分配给一个Map任务处理。Map任务将输入数据转化为一系列键值对,其中键是进行处理的对象,值是相关联的数据。Map阶段的输出结果被保存在本地磁盘上,等待Shuffle阶段的处理。

2)Shuffle阶段

在Shuffle阶段,Map任务的输出结果根据键被分配到不同的Reduce任务进行处理。这个过程称为Shuffle过程。具体来说,每个Map任务会将其输出结果按照键的哈希值分发到多个节点,每个节点对应一个Reduce任务。在Shuffle过程中,数据通过网络传输,需要考虑网络带宽和网络延迟等因素,以确保数据能够及时地到达目标节点。

3)Reduce阶段

在Reduce阶段,每个Reduce任务将接收到的键值对根据键进行聚合或者排序等操作,然后生成最终的输出结果。同样,在Reduce阶段的输出结果会被保存在本地磁盘上,最终汇总成最终的输出结果。

【总结】可以看出,MapReduce框架中的三个阶段都是分布式的,可以在多台计算机上并行运行。MapReduce框架能够有效地处理大规模数据,并实现高效的分布式计算。由于MapReduce框架的通用性和可伸缩性,因此已经被广泛应用于各种数据处理和机器学习任务。

五、Common Join(Reduce阶段)

在Hive中,常见连接(Common Join)在Reduce阶段进行。当执行常见连接时,Hive会首先对参与连接的表进行Map阶段的处理,将数据按照连接条件进行分组和排序,并将它们发送到不同的Reduce任务中。

  • 在Reduce阶段,每个Reduce任务会接收来自不同表的分组数据,并执行连接操作。具体而言,Reduce任务会对具有相同连接键的记录进行配对,从而实现连接操作。这通常涉及将具有相同连接键的记录组合在一起,以生成最终的连接结果。
  • 在Reduce阶段,Hive使用MapReduce框架来执行常见连接操作。它通过将相同连接键的数据分发到相同的Reduce任务中,实现数据的匹配和连接。这种分布式计算的方式可以有效地处理大规模数据集,并实现高效的连接操作。

需要注意的是,由于常见连接操作在Reduce阶段进行,所以在执行大规模连接操作时,可能会产生大量的中间数据和计算开销。因此,优化连接操作的性能是一个重要的考虑因素,可以通过调整Hive的配置参数、选择适当的连接算法等方式来改善连接操作的性能。

以下面的HQL为例,图解其过程:

SELECT a.id,a.dept,b.age
FROM a join b
ON (a.id = b.id);

六、Map Join(Map 阶段)

Map Join 通常用于一个很小的表和一个大表进行 join 的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize 来决定,默认值为 25M。满足条件的话 Hive 在执行时候会自动转化为 MapJoin,或使用 hint 提示 /*+ mapjoin(table) */ 执行 MapJoin。



如上图中的流程:

  • 首先 Task A 在客户端本地执行,负责扫描小表 b 的数据,将其转换成一个HashTable 的数据结构,并写入本地的文件中,之后将该文件加载到 DistributeCache 中。
  • 接下来的 Task B 任务是一个没有 Reduce 的 MapReduce,启动 MapTasks 扫描大表 a,在 Map 阶段,根据 a 的每一条记录去和 DistributeCache 中 b 表对应的 HashTable 关联,并直接输出结果,因为没有 Reduce,所以有多少个 Map Task,就有多少个结果文件。

【注意】Map JOIN 不适合 FULL/RIGHT OUTER JOIN

关于 Hive Join 的原理与机制介绍就先到这里了,有任何疑问欢迎给我留言或关注我公众号【大数据与云原生技术分享】加群交流或私信咨询问题等待~

相关推荐

了解Linux目录,那你就了解了一半的Linux系统

大到公司或者社群再小到个人要利用Linux来开发产品的人实在是多如牛毛,每个人都用自己的标准来配置文件或者设置目录,那么未来的Linux则就是一团乱麻,也对管理造成许多麻烦。后来,就有所谓的FHS(F...

Linux命令,这些操作要注意!(linux命令?)

刚玩Linux的人总觉得自己在演黑客电影,直到手滑输错命令把公司服务器删库,这才发现命令行根本不是随便乱用的,而是“生死簿”。今天直接上干货,告诉你哪些命令用好了封神!喜欢的一键三连,谢谢观众老爷!!...

Linux 命令速查手册:这 30 个高频指令,拯救 90% 的运维小白!

在Linux系统的世界里,命令行是强大的武器。对于运维小白而言,掌握一些高频使用的Linux命令,能极大提升工作效率,轻松应对各种系统管理任务。今天,就为大家奉上精心整理的30个Linu...

linux必学的60个命令(linux必学的20个命令)

以下是Linux必学的20个基础命令:1.cd:切换目录2.ls:列出文件和目录3.mkdir:创建目录4.rm:删除文件或目录5.cp:复制文件或目录6.mv:移动/重命名文件或目录7....

提高工作效率的--Linux常用命令,能够决解95%以上的问题

点击上方关注,第一时间接受干货转发,点赞,收藏,不如一次关注评论区第一条注意查看回复:Linux命令获取linux常用命令大全pdf+Linux命令行大全pdf为什么要学习Linux命令?1、因为Li...

15 个实用 Linux 命令(linux命令用法及举例)

Linux命令行是系统管理员、开发者和技术爱好者的强大工具。掌握实用命令不仅能提高效率,还能解锁Linux系统的无限潜力,本文将深入介绍15个实用Linux命令。ls-列出目录内容l...

Linux 常用命令集合(linux常用命令全集)

系统信息arch显示机器的处理器架构(1)uname-m显示机器的处理器架构(2)uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部件-(SMBIOS/DM...

Linux的常用命令就是记不住,怎么办?

1.帮助命令1.1help命令#语法格式:命令--help#作用:查看某个命令的帮助信息#示例:#ls--help查看ls命令的帮助信息#netst...

Linux常用文件操作命令(linux常用文件操作命令有哪些)

ls命令在Linux维护工作中,经常使用ls这个命令,这是最基本的命令,来写几条常用的ls命令。先来查看一下使用的ls版本#ls--versionls(GNUcoreutils)8.4...

Linux 常用命令(linux常用命令)

日志排查类操作命令查看日志cat/var/log/messages、tail-fxxx.log搜索关键词grep"error"xxx.log多条件过滤`grep-E&#...

简单粗暴收藏版:Linux常用命令大汇总

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部下午好,我的网工朋友在Linux系统中,命令行界面(CLI)是管理员和开发人员最常用的工具之一。通过命令行,用户可...

「Linux」linux常用基本命令(linux常用基本命令和用法)

Linux中许多常用命令是必须掌握的,这里将我学linux入门时学的一些常用的基本命令分享给大家一下,希望可以帮助你们。总结送免费学习资料(包含视频、技术学习路线图谱、文档等)1、显示日期的指令:d...

Linux的常用命令就是记不住,怎么办?于是推出了这套教程

1.帮助命令1.1help命令#语法格式:命令--help#作用:查看某个命令的帮助信息#示例:#ls--help查看ls命令的帮助信息#netst...

Linux的30个常用命令汇总,运维大神必掌握技能!

以下是Linux系统中最常用的30个命令,精简版覆盖日常操作核心需求,适合快速掌握:一、文件/目录操作1.`ls`-列出目录内容`ls-l`(详细信息)|`ls-a`(显示隐藏文件)...

Linux/Unix 系统中非常常用的命令

Linux/Unix系统中非常常用的命令,它们是进行文件操作、文本处理、权限管理等任务的基础。下面是对这些命令的简要说明:**文件操作类:*****`ls`(list):**列出目录内容,显...