百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

一文详解Hive的谓词下推

bigegpt 2024-09-02 16:38 4 浏览

谓词,是指用来描述或判断客体性质、特征或客体之间关系的词项。在SQL中即返回值为布尔值的函数。

谓词下推,在Hive中叫Predicate Pushdown,含义是指在不影响结果的前提下,尽量将过滤条件提前执行,使得最后参与join的表的数据量更小。谓词下推后,过滤条件将在map端提前执行,减少map端输出,降低了数据传输IO,节约资源,提升性能。在Hive中通过配置hive.optimize.ppd参数为true,开启谓词下推,默认为开启状态。

1、表的分类

首先定义一下参与join的表的类型,共分4类。

1. Preserved Row table:保留表

a left (outer) join b 中的 a 表;

a right (outer) join b 中的 b 表;

a full outer join b a 和 b 表都是 保留表。

2. Null Supplying table:提供null值的表,也就是 非保留表,在join中如果不能匹配上的使用null填充的表。

a left (outer) join b 中的 b 表;

a right (outer) join b 中的 a 表,

a full outer join b a 和 b 表都是 null值保留表

3. During Join predicate:join中谓词,就是on后面的条件。

R1 join R2 on R1.x = 5 --> R1.x = 5就是join中谓词

4. After Join predicate:join后谓词,就是where后面的条件。

a left join b where a.t=1 --> a.t=1 就是join后谓词

2、Left outer Join & Right outer Join

!!!测试时,关闭 cbo 优化:set hive.cbo.enable=false

案例一:过滤条件写在 where, 且是 保留表的字段

explain

select o.id from bigtable b

left join bigtable o

where b.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

案例二:过滤条件写在 where, 且是 非保留表的字段

explain

select b.id,o.id from bigtable b

left join bigtable o

where o.id <= 10;

--> 不可以谓词下推(能在 map 阶段提前过滤)

案例三:过滤条件写在 on, 且是 保留表的字段

explain

select o.id from bigtable b

left join bigtable o

on b.id <= 10;

--> 不可以谓词下推(不能在 map 阶段提前过滤)

案例四:过滤条件写在 on, 且是 非保留表的字段

explain

select o.id from bigtable b

left join bigtable o

on o.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

=============总结=============

在关闭cbo的情况下:


保留表字段(left的左表)

非保留表字段 (left的右表)

on

不可以

可以

where

可以

不可以(开启cbo,可以)

!!!注意:

1、对于 Left outer Join ,右侧的表写在 on后面、左侧的表写在 where后面,性能上有提高;

2、对于 Right outer Join,左侧的表写在 on后面、右侧的表写在 where后面,性能上有提高;

3、Full outer Join

案例一:过滤条件写在 where, 且是 保留表的字段

explain

select o.id from bigtable b

full join bigtable o

where b.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

案例二:过滤条件写在 where, 且是 非保留表的字段

explain

select b.id,o.id from bigtable b

full join bigtable o

where o.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

案例三:过滤条件写在 on, 且是 保留表的字段

explain

select o.id from bigtable b

full join bigtable o

on b.id <= 10;

--> 不可以谓词下推(不能在 map 阶段提前过滤)

案例四:过滤条件写在 on, 且是 非保留表的字段

explain

select o.id from bigtable b

full join bigtable o

on o.id <= 10;

--> 不可以谓词下推(不能在 map 阶段提前过滤)

=============总结=============

1. 如果不开启 cbo,写在 on后面,还是 where后面,都不会谓词下推

2. 如果开启了 cbo,写在 where 可以 谓词下推, 写在 on 不可以 谓词下推


4、Inner Join

案例一:过滤条件写在 where, 且是 保留表的字段

explain

select o.id from bigtable b

join bigtable o

where b.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

案例二:过滤条件写在 where, 且是 非保留表的字段

explain

select b.id,o.id from bigtable b

join bigtable o

where o.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

案例三:过滤条件写在 on, 且是 保留表的字段

explain

select o.id from bigtable b

join bigtable o

on b.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

案例四:过滤条件写在 on, 且是 非保留表的字段

explain

select o.id from bigtable b

join bigtable o

on o.id <= 10;

--> 可以谓词下推(能在 map 阶段提前过滤)

=============总结=============

Inner Join 不管有没有开启cbo,不管写在 on后面 还是 where后面,都会进行谓词下推。


相关阅读:

Hive内部表与外部表的区别

HBase API操作与Hive的集成

Hive自定义分区器流程

牛刀小试——Hive源码Debug全流程讲解

Hive相关面试题知识点总结

相关推荐

一条命令搞定pip国内镜像源设置(pip install 指定镜像)

玩python的同学想必没有不用pip的吧,pip是python包管理工具,和Nodejs的npm、Java的maven类似,这些依靠开源力量建立起的庞大软件库极大提高了开发的效率,不过默认pytho...

Cadence Allegro在PCB中手动或者自动添加差分对属性

设计PCB过程中,若设计中有差分对信号,则需要将是差分的2个信号设置为差分对,设置差分对有2种方式:手动添加及自动添加一、手动添加差分对:1、点击Setup-Constraints-Constrain...

合亿 Gutab 三防|车载工业平板功能介绍,车载工业平板厂家推荐

在商用车队管理迈向智能化、特种车辆作业追求高效化的今天,车载工业平板早已突破传统“车载导航”的单一功能,成为连接车辆、司机与云端管理的核心枢纽。从物流运输的实时调度中枢,到矿山开采的无人驾驶控制器,再...

「探长分享-黑匣子」本田冠道 2020款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】本田冠道2020款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步标...

「探长分享-黑匣子」奥迪A6L 2019款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】奥迪A6L2019款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步...

探长360全景案例分享:奥迪Q7 2011款360全景效果展示

【品牌】DCT360汽车黑匣子【产品型号】3TPro【安装车型】奥迪Q72011款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停...

「探长分享-黑匣子」保时捷Cayenne 2015款

【品牌】探长360汽车黑匣子【产品型号】4TPro【安装车型】保时捷Cayenne2015款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,...

苍蝇再小也是肉,变态电路的大阳巧客S2差点难死大神

这台大阳巧客S2电动四轮车是我家第二台四轮俱全的篷车!哈哈!大阳巧客S2配置4.5Kw永磁同步电机,SVPWM矢量控制正弦波系统,车辆在加速、爬坡上性能有提升,效率高,操控灵敏。这台车前段时间刚更换了...

「探长分享-黑匣子」奥迪Q5L 2020款

360汽车黑匣子【产品型号】4TPro【安装车型】奥迪Q5L2020款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停车监控,一秒一...

「探长分享-黑匣子」丰田兰德酷路泽 2016款

【品牌】探长360汽车黑匣子【产品型号】3TPro【安装车型】丰田兰德酷路泽2016款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小...

驾驶室盲区是酿成重卡事故主因?后视系统:这个锅我不背

小时候家中长辈常常提醒:离大货车远一点!司机根本看不到你!早期的货车可能真的存在驾驶盲区,比如车辆正下方,因驾驶座过高,恰好是司机看不到的视野盲区。而如今的重卡在环视系统上已经非常完善,是否还存在驾驶...

前后双录,360 G580行车记录仪(360行车记录仪g580s)

相信每一位车主都会为爱车安装行车记录仪,行车记录仪的作用不仅能为交通事故还原证据,还能防止碰瓷。传统的单镜头行车记录仪只能拍摄车头方向的行车画面,如果遇到后方车辆故意碰瓷的事故时,没有监控和后摄画面则...

海康威视同轴录像机怎么使用,海康XVR配置说明

海康威视同轴录像机支持模拟、同轴以及数字IP摄像机接入,因此在使用多种类型摄像机、老久监控项目改造等场景广泛使用。首先,新录像机第一次使用需要设置管理密码激活,密码需由8-16位数字、小写字母、大写...

亿道三防2代工业级车载平板电脑震撼登场,农机矿车专用

亿道三防近日推出2024年全新2代车载平板电脑V12R,引领多项技术创新和升级,为农机、矿车等车载领域带来了超越期待与想象的震撼体验。V12R是一款从里到外,性能、功能全线拉满的工业级车载平板电脑!拥...

分析神州十八号返回舱内的摄像机最有可能是什么类型的摄像头

有没有发现,神州十八号返回舱内摄像机的图像虽然清晰度不是很高,但是画面非常干净,没有一点干扰,几乎看不到噪点。图像清晰度不高不太可能是镜头原因,很可能是图像传感器的分辨率比较低的原因,图像传感器分辨率...