百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

0251-如何在Hive中生成Parquet表

bigegpt 2024-08-26 11:13 3 浏览

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

Fayson的github:https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1.文档编写目的


前面Fayson介绍了《

如何在Impala中使用Parquet表

》,本篇文章主要介绍如何使用Hive来生成Parquet格式的表,并介绍如何限制生成的Parquet文件的大小。

  • 内容概述

1.测试数据准备

2.Hive创建Parquet表及验证

3.Paruqet文件跨Block说明

4.总结

  • 测试环境

1.RedHat7.3

2.CM和CDH版本为5.13.1

  • 前置条件

1.已使用hive-testbench生成好Hive的基准测试数据

2.测试数据准备


1..使用hive-testbench生成15GB测试数据,挑选catalog_sales表做为测试表

生成的表数据为text类型

查看catalog_sales表生成的text数据大小

具体的数据如何生成,大家可以参考Fayson前面讲的《

如何编译及使用hive-testbench生成Hive基准测试数据

》。

2.查看catalog_sales表的数据量大小

测试表的数据量大小为21602679

3.Hive创建Parquet表


1.创建一个SQL脚本内容如下:

[root@ip-172-31-21-83 impala-parquet]# vim load_parquet_hive.sql 
set mapreduce.input.fileinputformat.split.maxsize=536870912;
set mapreduce.input.fileinputformat.split.minsize=536870912;
set parquet.block.size=268435456;
set parquet.compression=SNAPPY;
drop table if exists catalog_sales;
create table default.catalog_sales
stored as parquet
as select * from tpcds_text_15.catalog_sales;

(可左右滑动)

脚本描述:

  • fileinput.split.maxsize/minsize参数主要用于将输入的数据拆分多个 512MB的大小作为Map的输入,通过该参数可以相应的控制hive作业的Map数量。
  • parquet.compression设置Parquet文件的压缩格式为SNAPPY。
  • parquet.block.size设置parquet文件的大小为256MB。
  • 在default库下创建一个与tpcds_text_15.catalog_sales表结构一致的Parquet表将tpcds_text_15.catalog_sales表数据插入到default.catalog_sales表中。

2.使用hive命令行执行如下脚本,创建Parquet表并导入数据

[root@ip-172-31-21-83 impala-parquet]# hive -f load_parquet_hive.sql 
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0

(可左右滑动)

等待作业执行成功,显示如下:

3.查看HDFS上catalog_sales表占用空间大小

[root@ip-172-31-16-68 ~]# hadoop fs -du -h /user/hive/warehouse

(可左右滑动)

查看catalog_sales表生成的parquet文件大小

查看生成的每个parquet文件的Block数

如上截图可以看parquet文件的Block为1个,说明生成的paruqet文件未出现跨Block的现象,与Fayson前面文章《

如何在Impala中使用Parquet表

》中介绍的“为Impala使用合适大小的Parquet block size”一致。

4.Impala命令行验证


1.在命令行登录impala-shell

表的数据量大小与原始表tpcds_text_15.catalog_sales表数据量一致。

5.Parquet文件跨block说明


使用Impala的创建Parquet表时生成的Parquet文件都是一个单独的块,不会出现文件跨Block的现象,如果使用Hive的方式来创建Parquet表时会出现生成文件跨Block的问题。如下示例Fayson实现一个parquet文件跨Block的示例:

生成的Paruqet文件大于Parquet的block size就会出现Paruqet文件跨Block的问题。

1.准备SQL脚本内容如下:

 [root@ip-172-31-21-83 impala-parquet]# vim load_parquet_hive.sql 
set mapreduce.input.fileinputformat.split.maxsize=67108864;
set mapreduce.input.fileinputformat.split.minsize=67108864;
set parquet.compression=SNAPPY;
drop table if exists catalog_sales;
create table default.catalog_sales
stored as parquet
as select * from tpcds_text_15.catalog_sales;

(可左右滑动)

2.查看HDFS上生成的Parquet文件

[root@ip-172-31-21-83 impala-parquet]# hadoop fs -du -h /user/hive/warehouse/catalog_sales

(可左右滑动)

这里可以看到生成了两个parquet文件,这是由fileinputformat.split.maxsize/minsize参数控制的,我们设置的Parquet文件的block size为16MB,生成的Paruqet文件大于64MB ,因此会出现Paruqet文件跨Block的现象:

3.设置/user/hive/warehouse/catalog_sales目录下所有文件的副本数为1

hadoop fs -setrep -R 1 /user/hive/warehouse/catalog_sales

(可左右滑动)

由于Fayson的测试集群只有3个DataNode,即使Paruqet文件跨Block,也可以确保每个节点均有该Parquet文件的全量数据所以无法测试重现Impala在查询跨Block的parquet数据时出现的警告信息,因此这里将文件的副本数修改为1。

4.使用Impala-shell执行SQL查询

select * from catalog_sales where cs_order_number in (480001, 690003,1469093,1200000,724570,2400000);

(可左右滑动)

执行结果出现警告:“WARNINGS: Read 78.24 MB of data across network that was expected tobe local. Block locality metadata for table 'default.catalog_sales' may bestale”

6.总结


  • Hive生成Parquet文件的大小取决于

mapreduce.input.fileinputformat.split.maxsize/minsize两个参数

如:该参数设置为1GB=1024 *102 * 1024则生成的Parquet文件为1GB左右设置了压缩格式则该文件会小于1GB。

  • Parquet文件的block数量取决于parquet.block.size大小的设置,

如:parquet.block.size大小设置为512MB,parquet文件大小为1G则该Parquet文件则会被分为2个Block。

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

相关推荐

Docker篇(二):Docker实战,命令解析

大家好,我是杰哥上周我们通过几个问题,让大家对于Docker有了一个全局的认识。然而,说跟练往往是两个概念。从学习的角度来说,理论知识的学习,往往只是第一步,只有经过实战,才能真正掌握一门技术所以,本...

docker学习笔记——安装和基本操作

今天学习了docker的基本知识,记录一下docker的安装步骤和基本命令(以CentOS7.x为例)一、安装docker的步骤:1.yuminstall-yyum-utils2.yum-con...

不可错过的Docker完整笔记(dockerhib)

简介一、Docker简介Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源。Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,...

扔掉运营商的 IPTV 机顶盒,全屋全设备畅看 IPTV!

其实现在看电视节目的需求确实大大降低了,折腾也只是为了单纯的让它实现,享受这个过程带来的快乐而已,哈哈!预期构想家里所有设备直接接入网络随时接收并播放IPTV直播(电信点播的节目不是太多,但好在非常稳...

第五节 Docker 入门实践:从 Hello World 到容器操作

一、Docker容器基础运行(一)单次命令执行通过dockerrun命令可以直接在容器中执行指定命令,这是体验Docker最快捷的方式:#在ubuntu:15.10容器中执行ech...

替代Docker build的Buildah简单介绍

Buildah是用于通过较低级别的coreutils接口构建OCI兼容镜像的工具。与Podman相似,Buildah不依赖于Docker或CRI-O之类的守护程序,并且不需要root特权。Builda...

Docker 命令大全(docker命令大全记录表)

容器生命周期管理run-创建并启动一个新的容器。start/stop/restart-这些命令主要用于启动、停止和重启容器。kill-立即终止一个或多个正在运行的容器rm-于删除一个或...

docker常用指令及安装rabbitMQ(docker安装rabbitmq配置环境)

一、docker常用指令启动docker:systemctlstartdocker停止docker:systemctlstopdocker重启docker:systemctlrestart...

使用Docker快速部署Storm环境(docker部署confluence)

Storm的部署虽然不是特别麻烦,但是在生产环境中,为了提高部署效率,方便管理维护,使用Docker来统一管理部署是一个不错的选择。下面是我开源的一个新的项目,一个配置好了storm与mono环境的D...

Docker Desktop安装使用指南:零基础教程

在之前的文章中,我多次提到使用Docker来安装各类软件,尤其是开源软件应用。鉴于不少读者对此有需求,我决定专门制作一期关于Docker安装与使用的详细教程。我主要以Macbook(Mac平台)为例进...

Linux如何成功地离线安装docker(linux离线安装httpd)

系统环境:Redhat7.2和Centos7.4实测成功近期因项目需要用docker,所以记录一些相关知识,由于生产环境是不能直接连接互联网,尝试在linux中离线安装docker。步骤1.下载...

Docker 类面试题(常见问题)(docker面试题目)

Docker常见问题汇总镜像相关1、如何批量清理临时镜像文件?可以使用sudodockerrmi$(sudodockerimages-q-fdanging=true)命令2、如何查看...

面试官:你知道Dubbo怎么优雅上下线的吗?你:优雅上下线是啥?

最近无论是校招还是社招,都进行的如火如荼,我也承担了很多的面试工作,在一次面试过程中,和候选人聊了一些关于Dubbo的知识。Dubbo是一个比较著名的RPC框架,很多人对于他的一些网络通信、通信协议、...

【Docker 新手入门指南】第五章:Hello Word

适合人群:完全零基础新手|学习目标:30分钟掌握Docker核心操作一、准备工作:先确认是否安装成功打开终端(Windows用户用PowerShell或GitBash),输入:docker--...

松勤软件测试:详解Docker,如何用portainer管理Docker容器

镜像管理搜索镜像dockersearch镜像名称拉取镜像dockerpullname[:tag]列出镜像dockerimages删除镜像dockerrmiimage名称或id删除...