hivefulljoin - 比格导航

hivefulljoin

「实战系列」Greenplum 建模最佳实践之拉链表: 拉链表是一种数据模型，主要是针对数据仓库设计中表存储数据的方式而定义的。顾名思义，所谓拉链表，就是记录历史，记录一个事务从开始一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题，同时也是处理缓慢变化数据（SCD2）的一种常见方式。一、概念原理在拉链表中，每一条数...

5 年迭代 5 次，抖音推荐系统演进历程: 2021年，字节跳动旗下产品总MAU已超过19亿。在以抖音、今日头条、西瓜视频等为代表的产品业务背景下，强大的推荐系统显得尤为重要。Flink提供了非常强大的SQL模块和有状态计算模块。目前在字节推荐场景，实时简单计数特征、窗口计数特征、序列特征已经完全迁移到FlinkSQL方...

数据开发必经之路-数据倾斜: 前言数据倾斜是数据开发中最常见的问题，同时也是面试中必问的一道题。那么何为数据倾斜？什么时候会出现数据倾斜？以及如何解决呢？何为数据倾斜：数据倾斜其本质就是数据分配不均匀，部分任务处理大量的数据量导致整体job的执行时间拉长。什么时候出现数据倾斜：无论是spark,还是mapreduce，数据倾斜大...

SQL进阶技能——集合运算(表的加减法): 一：集合运算1表的加减法1.1什么是集合运算集合在数学领域表示“各种各样的事物的总和”,在数据库领域表示记录的集合.具体来说,表、视图和查询的执行结果都是记录的集合,其中的元素为表或者查询结果中的每一行。在标准SQL中,分别对检索结果使用UNION,INTERSECT,EXCE...

学大数据需要学哪些课程: 不少想学习大数据的同学，对于大数据要学习哪些课程都很迷茫，不知道该从哪里学起走。下面科多大数据老师www.keduox.com就带着大家一起来看一看，学习大数据具体要学习哪些课程呢。一、大数据技术基础1、linux操作基础linux系统简介与安装linux常用命令–文件操作linux常用命令–用户...

Flink on Hive构建流批一体数仓: Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎，也可以通过流处理的方式来读写Hive中的表，从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例，介绍Flink集成Hive的另...

高效大数据开发之 bitmap 思想的应用: 作者：xmxiong，PCG运营开发工程师数据仓库的数据统计，可以归纳为三类：增量类、累计类、留存类。而累计类又分为历史至今的累计与最近一段时间内的累计(比如滚动月活跃天，滚动周活跃天，最近N天消费情况等)，借助bitmap思想统计的模型表可以快速统计最近一段时间内的累计类与留存类。一、背...

大数据面试题锦集 | 数据仓库工具HIVE篇: 文末领取【MySQL练习题+答案解析】进入DATE时代，大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术：Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时...

Hive调优汇总: 一、参数调优1.explain一个HIVE查询被转换为由一个或多个stage组成的序列（有向无环图DAG）。这些stage可以是mapreducestage，也可以是负责元数据存储的stage，也可以是负责文件系统的操作（比如移动和重命名）的stage。EXPLAIN的输出包含以下三部分：查询的...

Hive的优化和压缩: 使用之前的数据库执行语句explainselectcount(*)fromemp;explain可以帮助我们看到有多少个任务会出现下面的信息根标签，操作语法树等信息根标签操作语法树之前在做日志分析的时候，创建表的语句，也有很多信息依赖，是会构成有向无环图的,根据有向无环图会按照顺序执行jo...

‹‹ 1 2 › ››

首页
收录
顶部