百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

「实战系列」Greenplum 建模最佳实践之拉链表

bigegpt 2024-09-02 16:39 4 浏览

拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的。顾名思义,所谓拉链表,就是记录历史,记录一个事务从开始一直到当前状态的所有变化的信息。

拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据( SCD2 )的一种常见方式。

一、概念原理

在拉链表中,每一条数据都有一个生效日期 ( sdate ) 和失效日期 ( edate )。假设在一个用户表中,在 2019年10月8日新增了两个用户,则这两条记录的生效时间为当天,由于到 2019年10月8日为止,这两条记录还没有被修改过,所以失效时间为无穷大,这里设置为数据库中的最大值 ( 2999-12-31 ),如图所示:

第二天(2019-10-09),用户 1001 被删除,用户 1002 的电话号码被修改成 16500000006。为了保留历史状态,用户 1001 的失效时间被修改成 2019-10-09,用户 1002 则变成两条记录,如图所示:

第三天(2019-10-10),又新增了用户 1003,则用户表数据如图:

如果要查询最新的数据,那么只要查询失效时间为 2999-12-31 的数据即可,如果要查询 10月8号 的历史数据,则筛选生效时间 <= 2019-10-08 并且失效时间 > 2019-10-08 的数据即可;如果查询的是 10月9日的数据,那么筛选条件则是生效时间 <= 2019-10-09 并且失效时间 > 2019-10-09;以此类推。

二、准备

2.1 创建表

临时源表 T_FIN_ACCTION_SRC,接收其它数据库 ( 如 oracle ) 表推送过来的数据 ,表结构和源数据库的表结构一致。

目标表 ( 即拉链表 ) T_FIN_ACCTION_TAR,这里注意的是:拉链表把源表的时间字段改成了生效时间失效时间哦。

2.2 创建存储过程

在这里为了方便阅读以及代码的编写,先写出整体的存储过程架构,然后我们在一步一步添加代码:

-- 将当前时间传入 (也可以传入昨天的时间哦,随机应变,
-- 如果传入的时间是今天则使用中要将时间减1,因为我们要处理的是昨天的数据)

create or replace function My_FIN_GL_SUBJECT_PRO(IN P_TODAY VARCHAR)
 returns void
as $
declare

begin 
 --1.目标表中没有此主键的则确定为新增 - 新增

 --2.源表中没有该ID则进行关链 - 删除

 --3.修改
 --3.1 闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天

 --3.2 开链:目标表中新增一条修改的数据,更新结束日期为无穷大

end;
$
language plpgsql;

三、拉链实现过程

3.1 新增

目标表中没有此主键的则确定为新增 – 新增

insert into gplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)

select s.eNo,s.eName,s.ePhone,s.eData_date,to_date('2999-12-31','yyyy-mm-dd')
 from gplcydb.public.T_FIN_ACCTION_SRC s
 where s.eData_date=(to_date(P_TODAY,'yyyy-mm-dd') - 1)
 and not exists(
 select 1 
 from gplcydb.public.T_FIN_ACCTION_TAR t
 where s.eNo=t.eNo
 and s.eName=t.eName
 and s.ePhone=t.ePhone
 );

3.2 删除

源表中没有该 ID 则进行关链 – 删除

update gplcydb.public.T_FIN_ACCTION_TAR a 
 set edate=(to_date(P_TODAY,'yyyy-mm-dd')-1)
where not exists( 
 select 1
 from gplcydb.public.T_FIN_ACCTION_SRC s 
 where s.eNo=a.eNo
 and a.edate=to_date('2999-12-31', 'yyyy-mm- 
 dd')
 );

3.3 修改

1)闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天

update gplcydb.public.T_FIN_ACCTION_TAR b
 set edate=(to_date(P_TODAY,'yyyy-mm-dd')-1)
 where b.edate=to_date('2999-12-31','yyyy-mm-dd')
 and exists(
 select 1 
 from gplcydb.public.T_FIN_ACCTION_SRC s
 where s.eNo = b.eNo
 and b.sdate < (to_date(P_TODAY,'yyyy-mm-dd')-1)
 and ( s.eName <> b.eName or s.ePhone <> b.ePhone )
 )
;

2)开链:目标表中新增一条修改的数据,更新结束日期为无穷大

insert into gplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)


select s.eNo,s.eName,s.ePhone,(to_date(P_TODAY,'yyyy-mm-dd') - 1),to_date('2999-12-31','yyyy-mm-dd')
 from gplcydb.public.T_FIN_ACCTION_SRC s
 where s.eData_date=(to_date(P_TODAY,'yyyy-mm-dd') - 1)
 and exists( -- 处理数据断链新增的情况
 select 1 
 from (
 select eNo,sdate,max(edate) end_date
 from gplcydb.public.T_FIN_ACCTION_TAR 
 group by eNo,sdate
 ) t
 where t.eNo=s.eNo
 and s.eData_date = t.sdate
 and t.end_date <= to_date(P_TODAY,'yyyy-mm-dd')
 )
;

四、测试

要测试拉链函数,首先我们必须要在原表中插入数据(模拟一天全量的数据):

insert into T_FIN_ACCTION_SRC values('1001','feiniu','18500000001','2019-10-10');

insert into T_FIN_ACCTION_SRC values('1002','beibei','18400000005','2019-10-10');

insert into T_FIN_ACCTION_SRC values('1003','yuyu','13800000005','2019-10-10'

调用函数进行拉链测试:

select My_FIN_GL_SUBJECT_PRO('2019-10-11'); -- 调用函数

select * from T_FIN_ACCTION_TAR; -- 查询拉链表

测试结果如下图:

插入第二天全量数据,这些数据中有新增的数据,有源数据被删除,还有源数据被修改,完整的模拟sql语句如下:

delete from T_FIN_ACCTION_SRC where eno='1003';
insert into T_FIN_ACCTION_SRC values('1004','kongkong','13800000666','2019-10-11');
update T_FIN_ACCTION_SRC set ename='xiaofeifei' where eno='1001';

select * from T_FIN_ACCTION_SRC;

原表的效果图如下:

接下来执行拉链函数:

-- 执行拉链函数
select My_FIN_GL_SUBJECT_PRO('2019-10-12');

select * from T_FIN_ACCTION_TAR; --查询目标表

效果图如下:

到此,我们的拉链实现就完成咯,当初还用了很多个临时表,琢磨了好久终于可以实现了,希望能帮助到你!

番外语

  1. 本文操作环境:Greenplum 数据库。故采用了过程函数的方式 insert/update 实现拉链。
  2. 若 Hive上,则需要采用 full outer join 实现拉链表。后面会有专篇文章介绍。
  3. 建议添加 chain_status 字段,分别记录拉链状态(active、expired、history)。

相关推荐

如何使用Java API操作HDFS系统?(hdfs java api的常见环境准备?)

1.搭建项目环境打开Eclipse选择FileàNewàMavenProject创建Maven工程,选择“Createasimpleproject”选项,点击【Next】按钮,会进入“New...

DataX写插件开发-集成阿里云RocketMQ

在上一期我们对datax进行了技术调研DataX数据异构、数据同步神器,这一次我们集成一个RocketMQ写插件,能够非常方便对将mysql数据同步到MQ中,下面来总结下具体步骤。1.下载datax源...

以SpringMVC+Shiro+Mybatis为核心开发的精简后台系统源码分享

项目说明源码获取方式:关注转发之后私信回复【源码】即可免费获取到以SpringMVC+Shiro+Mybatis为核心开发的精简后台基础系统。包含用户管理,角色管理,部门管理,权限管理,菜单管理,日志...

手把手教小伙伴们使用 Nginx 部署 TienChin 项目!

今天我就来手把手教小伙伴们部署TienChin项目,一起把这个项目跑起来,看看到底是个什么样的项目。小伙伴们知道,对于这种前后端分离的项目,我们在实际部署的时候,可以按照前后端分离的方式来部署,也...

推荐一款超棒的SpringCloud 脚手架项目

之前接个私活,在网上找了好久没有找到合适的框架,不是版本低没人维护了,在不就是组件相互依赖较高。所以我自己搭建一个全新spingCloud框架,里面所有组件可插拔的,集成多个组件供大家选择,喜欢哪个用...

SpringCloud 微服务迁移到 Kubernetes 容器化完整流程

k8s容器部署流程具体步骤:第一步:熟悉SpringCloud微服务项目第二步:源代码编译构建第三步:构建项目镜像并推送到镜像仓库第四步:K8s服务编排第五步:部署服务所需的基础环境第六步:部署微服...

SpringBoot 实现动态配置及项目打包部署上线

一、动态配置文件我们需要了解Spring动态指定配置文件的方式,来提高我们的部署效率。1.1、概述在实际企业开发中,开发环境、测试环境、生产环境通常采用不同的数据库等中间件的连接方式。如果此时我们按照...

3.5 源码安装ONOS1.3.0(源码包怎么安装)

ONOS是由ON.Lab使用Java及Apache实现发布的首款开源的SDN网络操作系统,主要面向服务提供商和企业骨干网。近日笔者在学习ONOS的过程中写下了这篇文章,希望可以对刚接触ONOS的同学们...

jenkins+gitlab 实现自动化部署(jenkins配置git自动部署)

目录1、安装jdk,要记住安装路径2、安装maven,要记住安装路径3、安装git,要记住安装路径4、安装gitlab5、安装jenkins(centos7)创建安装目录下载通用war包启动和关闭Je...

CI&amp;CD落地实践6-Jenkins接入maven构建后端springboot项目

前言在前面一篇《CI&CD落地实践5-Jenkins分布式环境搭建及多节点运行》中,我们介绍了如何在Windows及Linux系统上部署Jenkins从节点,本章节介绍如何在Jenkins创建mave...

从0到1体验Jenkins+Docker+Git+Registry实现CI自动化发布

阅读目录:一、前言二、发布流程三、环境准备四、部署思路梳理五、三台机器上操作六、Git机器上操作七、Docker机器上操作八、Jenkins机器上操作九、上传JAVA项目代码到Git仓库十、Jenki...

微服务架构实战:使用Jenkins实现自动化构建

使用Jenkins实现自动化构建一个大型平台的微服务架构设计通常会产生很多项目工程,因此会有很多服务和应用需要部署,并且需要不断地迭代和更新,这是一个庞大的工程,所以我们需要借助自动化工具,实现各个微...

Jenkins 自动化部署实例讲解(jenkins自动化部署git 项目)

前言你平常在做自己的项目时,是否有过部署项目太麻烦的想法?如果你是单体项目,可能没什么感触,但如果你是微服务项目,相信你应该是有过这种感触的。这种情况下,我一般会劝你了解一下Jenkins这个玩意...

多模块的微服务项目容器化与Git追踪发布记录

在使用了微服务后,一个项目往往由多个模块组成,而容器化发布的建议是单个容器尽量只运行单个进程。所以我们会把每个模块单独打包成镜像运行。如果每个模块都单独配置Dockerfile会让我们维护起来很麻烦。...

手把手教你使用 Jenkins+Docker 实现持续集成

作者:乐之终曲来源:https://blog.csdn.net/qq_37143673/对于Jenkins我只能用两个字形容,难用。就不过多吐槽了,本篇是基于docker环境的使用。1.安...