hivefulljoin
- 「实战系列」Greenplum 建模最佳实践之拉链表
-
拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的。顾名思义,所谓拉链表,就是记录历史,记录一个事务从开始一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据(SCD2)的一种常见方式。一、概念原理在拉链表中,每一条数...
- 5 年迭代 5 次,抖音推荐系统演进历程
-
2021年,字节跳动旗下产品总MAU已超过19亿。在以抖音、今日头条、西瓜视频等为代表的产品业务背景下,强大的推荐系统显得尤为重要。Flink提供了非常强大的SQL模块和有状态计算模块。目前在字节推荐场景,实时简单计数特征、窗口计数特征、序列特征已经完全迁移到FlinkSQL方...
- 数据开发必经之路-数据倾斜
-
前言数据倾斜是数据开发中最常见的问题,同时也是面试中必问的一道题。那么何为数据倾斜?什么时候会出现数据倾斜?以及如何解决呢?何为数据倾斜:数据倾斜其本质就是数据分配不均匀,部分任务处理大量的数据量导致整体job的执行时间拉长。什么时候出现数据倾斜:无论是spark,还是mapreduce,数据倾斜大...
- SQL进阶技能——集合运算(表的加减法)
-
一:集合运算1表的加减法1.1什么是集合运算集合在数学领域表示“各种各样的事物的总和”,在数据库领域表示记录的集合.具体来说,表、视图和查询的执行结果都是记录的集合,其中的元素为表或者查询结果中的每一行。在标准SQL中,分别对检索结果使用UNION,INTERSECT,EXCE...
- 学大数据需要学哪些课程
-
不少想学习大数据的同学,对于大数据要学习哪些课程都很迷茫,不知道该从哪里学起走。下面科多大数据老师www.keduox.com就带着大家一起来看一看,学习大数据具体要学习哪些课程呢。一、大数据技术基础1、linux操作基础linux系统简介与安装linux常用命令–文件操作linux常用命令–用户...
- Flink on Hive构建流批一体数仓
-
Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例,介绍Flink集成Hive的另...
- 高效大数据开发之 bitmap 思想的应用
-
作者:xmxiong,PCG运营开发工程师数据仓库的数据统计,可以归纳为三类:增量类、累计类、留存类。而累计类又分为历史至今的累计与最近一段时间内的累计(比如滚动月活跃天,滚动周活跃天,最近N天消费情况等),借助bitmap思想统计的模型表可以快速统计最近一段时间内的累计类与留存类。一、背...
- 大数据面试题锦集 | 数据仓库工具HIVE篇
-
文末领取【MySQL练习题+答案解析】进入DATE时代,大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时...
- Hive调优汇总
-
一、参数调优1.explain一个HIVE查询被转换为由一个或多个stage组成的序列(有向无环图DAG)。这些stage可以是mapreducestage,也可以是负责元数据存储的stage,也可以是负责文件系统的操作(比如移动和重命名)的stage。EXPLAIN的输出包含以下三部分:查询的...
- Hive的优化和压缩
-
使用之前的数据库执行语句explainselectcount(*)fromemp;explain可以帮助我们看到有多少个任务会出现下面的信息根标签,操作语法树等信息根标签操作语法树之前在做日志分析的时候,创建表的语句,也有很多信息依赖,是会构成有向无环图的,根据有向无环图会按照顺序执行jo...