温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

Fayson的github：https://github.com/fayson/cdhproject

提示：代码块部分可以左右滑动查看噢

1.文档编写目的

前面Fayson介绍了《

如何在Impala中使用Parquet表

》，本篇文章主要介绍如何使用Hive来生成Parquet格式的表，并介绍如何限制生成的Parquet文件的大小。

内容概述

1.测试数据准备

2.Hive创建Parquet表及验证

3.Paruqet文件跨Block说明

4.总结

测试环境

1.RedHat7.3

2.CM和CDH版本为5.13.1

前置条件

1.已使用hive-testbench生成好Hive的基准测试数据

2.测试数据准备

1..使用hive-testbench生成15GB测试数据，挑选catalog_sales表做为测试表

生成的表数据为text类型

查看catalog_sales表生成的text数据大小

具体的数据如何生成，大家可以参考Fayson前面讲的《

如何编译及使用hive-testbench生成Hive基准测试数据

》。

2.查看catalog_sales表的数据量大小

测试表的数据量大小为21602679

3.Hive创建Parquet表

1.创建一个SQL脚本内容如下：

[root@ip-172-31-21-83 impala-parquet]# vim load_parquet_hive.sql 
set mapreduce.input.fileinputformat.split.maxsize=536870912;
set mapreduce.input.fileinputformat.split.minsize=536870912;
set parquet.block.size=268435456;
set parquet.compression=SNAPPY;
drop table if exists catalog_sales;
create table default.catalog_sales
stored as parquet
as select * from tpcds_text_15.catalog_sales;

（可左右滑动）

脚本描述：

fileinput.split.maxsize/minsize参数主要用于将输入的数据拆分多个 512MB的大小作为Map的输入，通过该参数可以相应的控制hive作业的Map数量。
parquet.compression设置Parquet文件的压缩格式为SNAPPY。
parquet.block.size设置parquet文件的大小为256MB。
在default库下创建一个与tpcds_text_15.catalog_sales表结构一致的Parquet表将tpcds_text_15.catalog_sales表数据插入到default.catalog_sales表中。

2.使用hive命令行执行如下脚本，创建Parquet表并导入数据

[root@ip-172-31-21-83 impala-parquet]# hive -f load_parquet_hive.sql 
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0

（可左右滑动）

等待作业执行成功，显示如下：

3.查看HDFS上catalog_sales表占用空间大小

[root@ip-172-31-16-68 ~]# hadoop fs -du -h /user/hive/warehouse

（可左右滑动）

查看catalog_sales表生成的parquet文件大小

查看生成的每个parquet文件的Block数

如上截图可以看parquet文件的Block为1个，说明生成的paruqet文件未出现跨Block的现象，与Fayson前面文章《

如何在Impala中使用Parquet表

》中介绍的“为Impala使用合适大小的Parquet block size”一致。

4.Impala命令行验证

1.在命令行登录impala-shell

表的数据量大小与原始表tpcds_text_15.catalog_sales表数据量一致。

5.Parquet文件跨block说明

使用Impala的创建Parquet表时生成的Parquet文件都是一个单独的块，不会出现文件跨Block的现象，如果使用Hive的方式来创建Parquet表时会出现生成文件跨Block的问题。如下示例Fayson实现一个parquet文件跨Block的示例：

生成的Paruqet文件大于Parquet的block size就会出现Paruqet文件跨Block的问题。

1.准备SQL脚本内容如下：

 [root@ip-172-31-21-83 impala-parquet]# vim load_parquet_hive.sql 
set mapreduce.input.fileinputformat.split.maxsize=67108864;
set mapreduce.input.fileinputformat.split.minsize=67108864;
set parquet.compression=SNAPPY;
drop table if exists catalog_sales;
create table default.catalog_sales
stored as parquet
as select * from tpcds_text_15.catalog_sales;

（可左右滑动）

2.查看HDFS上生成的Parquet文件

[root@ip-172-31-21-83 impala-parquet]# hadoop fs -du -h /user/hive/warehouse/catalog_sales

（可左右滑动）

这里可以看到生成了两个parquet文件，这是由fileinputformat.split.maxsize/minsize参数控制的，我们设置的Parquet文件的block size为16MB，生成的Paruqet文件大于64MB ，因此会出现Paruqet文件跨Block的现象：

3.设置/user/hive/warehouse/catalog_sales目录下所有文件的副本数为1

hadoop fs -setrep -R 1 /user/hive/warehouse/catalog_sales

（可左右滑动）

由于Fayson的测试集群只有3个DataNode，即使Paruqet文件跨Block，也可以确保每个节点均有该Parquet文件的全量数据所以无法测试重现Impala在查询跨Block的parquet数据时出现的警告信息，因此这里将文件的副本数修改为1。

4.使用Impala-shell执行SQL查询

select * from catalog_sales where cs_order_number in (480001, 690003,1469093,1200000,724570,2400000);

（可左右滑动）

执行结果出现警告：“WARNINGS: Read 78.24 MB of data across network that was expected tobe local. Block locality metadata for table 'default.catalog_sales' may bestale”

6.总结

Hive生成Parquet文件的大小取决于

mapreduce.input.fileinputformat.split.maxsize/minsize两个参数

如：该参数设置为1GB=1024 *102 * 1024则生成的Parquet文件为1GB左右设置了压缩格式则该文件会小于1GB。

Parquet文件的block数量取决于parquet.block.size大小的设置，

如：parquet.block.size大小设置为512MB，parquet文件大小为1G则该Parquet文件则会被分为2个Block。

提示：代码块部分可以左右滑动查看噢

为天地立心，为生民立命，为往圣继绝学，为万世开太平。
温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操，第一时间，分享更多Hadoop干货，欢迎转发和分享。

原创文章，欢迎转载，转载请注明：转载自微信公众号Hadoop实操

0251-如何在Hive中生成Parquet表

6.总结

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程