hive 分桶

分桶表是对列值取哈希值的方式，将不同数据放到不同文件中存储。

对于hive中每一个表、分区都可以进一步进行分桶。

由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。

适用场景：

数据抽样（ sampling ）、map-join

开启支持分桶

set hive.enforce.bucketing=true;

默认：false；设置为true之后，mr运行时会根据bucket的个数自动分配reduce task个数。（用户也可以通过mapred.reduce.tasks自己设置reduce任务个数，但分桶时不推荐使用）

注意：一次作业产生的桶（文件数量）和reduce task个数一致。

往分桶表中加载数据

insert into table bucket_table select columns from tbl;

insert overwrite table bucket_table select columns from tbl;

桶表抽样查询

select * from bucket_table tablesample(bucket 1 out of 4 on columns);

TABLESAMPLE语法：

TABLESAMPLE(BUCKET x OUT OF y)

x：表示从哪个bucket开始抽取数据

y：必须为该表总bucket数的倍数或因子

分桶样例

1.原始表

CREATE TABLE psn31( id INT, name STRING, age INT)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

测试数据：

1,tom,11

2,cat,22

3,dog,33

4,hive,44

5,hbase,55

6,mr,66

7,alice,77

8,scala,88

2.创建分桶表

CREATE TABLE psnbucket( id INT, name STRING, age INT)

CLUSTERED BY (age) INTO 4 BUCKETS

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

3.加载数据

insert into table psnbucket select id, name, age from psn31;

4.抽样

select id, name, age from psnbucket tablesample(bucket 2 out of 4 on age);

相关推荐

Docker篇(二):Docker实战，命令解析: 大家好，我是杰哥上周我们通过几个问题，让大家对于Docker有了一个全局的认识。然而，说跟练往往是两个概念。从学习的角度来说，理论知识的学习，往往只是第一步，只有经过实战，才能真正掌握一门技术所以，本...

docker学习笔记——安装和基本操作: 今天学习了docker的基本知识,记录一下docker的安装步骤和基本命令(以CentOS7.x为例)一、安装docker的步骤：1.yuminstall-yyum-utils2.yum-con...

不可错过的Docker完整笔记（dockerhib）: 简介一、Docker简介Docker是一个开源的应用容器引擎，基于Go语言并遵从Apache2.0协议开源。Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，...

扔掉运营商的 IPTV 机顶盒，全屋全设备畅看 IPTV!: 其实现在看电视节目的需求确实大大降低了，折腾也只是为了单纯的让它实现，享受这个过程带来的快乐而已，哈哈！预期构想家里所有设备直接接入网络随时接收并播放IPTV直播（电信点播的节目不是太多，但好在非常稳...

第五节 Docker 入门实践:从 Hello World 到容器操作: 一、Docker容器基础运行（一）单次命令执行通过dockerrun命令可以直接在容器中执行指定命令，这是体验Docker最快捷的方式：#在ubuntu:15.10容器中执行ech...

替代Docker build的Buildah简单介绍: Buildah是用于通过较低级别的coreutils接口构建OCI兼容镜像的工具。与Podman相似，Buildah不依赖于Docker或CRI-O之类的守护程序，并且不需要root特权。Builda...

Docker 命令大全（docker命令大全记录表）: 容器生命周期管理run-创建并启动一个新的容器。start/stop/restart-这些命令主要用于启动、停止和重启容器。kill-立即终止一个或多个正在运行的容器rm-于删除一个或...

docker常用指令及安装rabbitMQ（docker安装rabbitmq配置环境）: 一、docker常用指令启动docker：systemctlstartdocker停止docker：systemctlstopdocker重启docker：systemctlrestart...

使用Docker快速部署Storm环境（docker部署confluence）: Storm的部署虽然不是特别麻烦，但是在生产环境中，为了提高部署效率，方便管理维护，使用Docker来统一管理部署是一个不错的选择。下面是我开源的一个新的项目，一个配置好了storm与mono环境的D...

Docker Desktop安装使用指南:零基础教程: 在之前的文章中，我多次提到使用Docker来安装各类软件，尤其是开源软件应用。鉴于不少读者对此有需求，我决定专门制作一期关于Docker安装与使用的详细教程。我主要以Macbook（Mac平台）为例进...

Linux如何成功地离线安装docker（linux离线安装httpd）: 系统环境：Redhat7.2和Centos7.4实测成功近期因项目需要用docker，所以记录一些相关知识，由于生产环境是不能直接连接互联网，尝试在linux中离线安装docker。步骤1.下载...

Docker 类面试题(常见问题)（docker面试题目）: Docker常见问题汇总镜像相关1、如何批量清理临时镜像文件？可以使用sudodockerrmi$(sudodockerimages-q-fdanging=true)命令2、如何查看...

面试官:你知道Dubbo怎么优雅上下线的吗?你:优雅上下线是啥?: 最近无论是校招还是社招，都进行的如火如荼，我也承担了很多的面试工作，在一次面试过程中，和候选人聊了一些关于Dubbo的知识。Dubbo是一个比较著名的RPC框架，很多人对于他的一些网络通信、通信协议、...

【Docker 新手入门指南】第五章:Hello Word: 适合人群：完全零基础新手|学习目标：30分钟掌握Docker核心操作一、准备工作：先确认是否安装成功打开终端（Windows用户用PowerShell或GitBash），输入：docker--...

松勤软件测试:详解Docker，如何用portainer管理Docker容器: 镜像管理搜索镜像dockersearch镜像名称拉取镜像dockerpullname[:tag]列出镜像dockerimages删除镜像dockerrmiimage名称或id删除...

9-5.hive 分桶

hive 分桶

开启支持分桶

往分桶表中加载数据

桶表抽样查询

分桶样例

1.原始表

2.创建分桶表

3.加载数据

4.抽样

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程

9-5.hive 分桶

hive 分桶

开启支持分桶

往分桶表中加载数据

桶表 抽样查询

分桶样例

1.原始表

2.创建分桶表

3.加载数据

4.抽样

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程

桶表抽样查询