百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

带你轻松理解数仓为啥分层?

bigegpt 2024-09-06 17:42 53 浏览

本文介绍了数仓的分层结构和分层的原因。通过分层,可以使数据处理更加规范、高效,提供可靠的数据支持。让我们一起学习一下~

一、数仓一般分哪些层?

操作数据层:ODS(Operational Data Store)

把操作系统数据几乎无处理地存放在数据仓库系统中。

事实明细层:DWD(Data Warehouse Detail)

DWD 层是在ODS层基础上,根据业务过程建模出来的事实明细层。

公共汇总层:DWS(Data Warehouse Summary)

一般根据维表数据和明细事实数据加工生成,作为通用的数据模型使用。

应用数据层:ADS(Application Data Store)

存放数据产品个性化的统计指标,根据明细层、汇总层及维表数据加工生成。

关于啥是数仓分层这里就不多介绍了。

首先我们先了解数仓分层现状:

各大企业数仓都是咋分的?有啥区别?

经过整理各大企业的数仓分层情况,经过对比可以发现:

不同点:

  • 命名有些不同,有的叫“a”,有的叫“A”。所以当我们遇到看不懂听不懂的命名时,就可以轻松识破啦。
  • 分层数不同,有些4层,有些5层,每层对数据处理有些许差异,比如在贴源层会进行3NF建模,猜测是接入业务系统太多,有些系统的表设计不符合规范,难以理解,在这层进行统一梳理。

相同点:

都包括贴源层、明细层、汇总层、应用层。都遵循维度建模理论,数据处理的流程本质上一样的,先拆分梳理再聚合汇

二、数仓为什么分层?

回答这个问题前,我们可以先思考如果不分层会怎么样?不分那么多层会怎么样?

1. 如果不分层会怎么样?

假设我们把数仓里的表都拍平,没有分层概念,业务源数据经过简单的数据清洗,加载到数据仓库中,直接应用于数据分析。

好处:数仓与业务系统隔离,数据分析不会直接影响到业务系统。

坏处:

  • 分析难:集成系统的开发规则,规范程度、统计口径都不一致。你还要去做数据关系映射,了解原业务系统的数据逻辑。无法对数理逻辑进行沉淀,每次分析都要重头准备数据。
  • 分析慢:由于业务系统是遵循范式建模的,发现关联了一堆表才能完成分析需求,分析效率极低。

2. 不分那么多层会怎么样?

看情况,当数据少,分析需求少,可以不去分dw层,ods直接加工到ads层,我们刚开始就是这样干的。

发现好像也不是不行啊,数据直接加工到ads层,上层应用查询效率也够用哈。

此时的好处:省事,成本很低,效率很高,数据出错改的也很快。

此时的坏处:

  • 没有公共逻辑沉淀,口径不统一,维度不统一,单个需求处理起来依然很麻烦。
  • 会造成重复开发,当有口径变动时,需要改动多处。
  • 无法满足更多的分析需求,拓展性极差,随时面临重构的风险。

由此我们可以推演出为啥要进行数仓分层?

  • 隔离原始数据:将业务数据与统计分析数据解耦,屏蔽相互之间的影响。
  • 清晰数据职能(把数据条理化):让每个数据层都有自己的作用和职责,将一个复杂的任务拆解成多个步骤来分步骤完成,每个层只解决特定的问题,在使用和维护的时候能够更方便和理解。(ODS层与业务数据保持一致即可,方便溯源数据问题,不影响业务数据库;DWD基于业务过程拆分数据,清洗数据,适当冗余维度;DWS层为了减少重复开发,沉淀可复用型指标;ADS面向应用提供数据)
  • 提高数据获取的效率:将海量数据的复杂关联查询结果提前计算好,提高计算效率。
  • 减少重复开发:规范数据分层,开发通用的中间层,可以极大地减少重复计算的工作。

既然有好处,那肯定也会有坏处,鱼和熊掌不可兼得!

  • 它需要更多的人力成本和时间成本来设计和实现。
  • 它对模型的维护提出了更高的要求。比如层级越多,溯源就越麻烦。
  • 数据的重复存储,数据需要在各个层级进行计算存储。

三、我们怎么去更好的理解数仓分层?

以卖早餐为例:

如果你在一个小巷子里,客户就是周边的邻居,你从选购食材,清洗食材,烹饪食材,然后摆出各种类型的早餐去售卖。

数据产品经理在这个过程中,就扮演着厨师的角色,如果我么要做一个韭菜盒子,就需要去了解哪些食材是我们需要的,“韭菜+粉丝+豆腐+面粉”对吧,韭菜别买成芹菜了,豆腐要买老豆腐,韭菜买回来得洗一下,粉丝得先泡一泡,豆腐要切成豆腐碎,还得和面。准备工作完成,就开始剁菜馅,切得碎碎,然后在包起来,下锅炸,最后摆盘售卖。

按部就班的将原材料加工成客户需求的产品。

【拓展思考】

分层也是一种分工协作,把一件复杂的事情模块化,简单化,提高可管理性,可维护性。

还是以卖早餐为例:

如果你是在陆家嘴地铁口售卖早餐,那么你最多就是卖包子,卖豆浆,其他环节可能都交给中央厨房去统一处理了。你只需要卖好包子就行。

本文由 @清小墨 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

相关推荐

Linux gron 命令使用详解(linux gminer)

简介gron是一个独特的命令行工具,用于将JSON数据转换为离散的、易于grep处理的赋值语句格式。它的名字来源于"grepableon"或"grepable...

【Linux】——从0到1的学习,让你熟练掌握,带你玩转Linu

学习Linux并掌握Java环境配置及SpringBoot项目部署是一个系统化的过程,以下是从零开始的详细指南,帮助你逐步掌握这些技能。一、Linux基础入门1.安装Linux系统选择发行版:推荐...

Linux常用的shell命令汇总(linux中shell的作用)

本文介绍Linux系统下常用的系统级命令,包括软硬件查看、修改命令,有CPU、内存、硬盘、网络、系统管理等命令。说明命令是在Centos6.464位的虚拟机系统进行测试的。本文介绍的命令都会在此C...

零成本搭建个人加密文件保险柜(适用于 Win11 和 Linux)

不依赖收费软件操作简单,小白也能跟着做支持双系统,跨平台使用实现数据加密、防删除、防泄露内容通俗无技术门槛,秒懂秒用使用工具简介我们将使用两个核心工具:工具名用途系统支持Veracrypt创建加密虚...

如何在 Linux 中使用 Gzip 命令?(linux怎么用gzip命令)

gzip(GNUzip)是Linux系统中一个开源的压缩工具,用于压缩和解压缩文件。它基于DEFLATE算法,广泛应用于文件压缩、备份和数据传输。gzip生成的文件通常带有.gz后缀,压缩效率...

Linux 必备的20个核心知识点(linux内核知识点)

学习和使用Linux所必备的20个核心知识点。这些知识点涵盖了从基础操作到系统管理和网络概念,是构建扎实Linux技能的基础。Linux必备的20个知识点1.Linux文件系统层级标...

谷歌 ChromeOS 已支持 7z、iso、tar 文件格式

IT之家6月21日消息,谷歌ChromeOS在管理文件方面进行了改进,新增了对7z、iso和tar等格式的支持。从5月的ChromeOS101更新开始,ChromeOS...

如何在 Linux 中提取 Tar Bz2 文件?

在深入解压方法之前,我们先来了解.tar.bz2文件的本质。.tar.bz2是一种组合文件格式,包含两个步骤:Tar(TapeArchive):tar是一种归档工具,用于将多个文件或目录打包...

如何在 CentOS 7/8 上安装 Kitematic Docker 管理器

Kitematic是一款流行的Docker图形界面管理平台,适用于Ubuntu、macOS和Windows操作系统。然而,其他发行版(如CentOS、OpenSUSE、Fedora、R...

Nacos3.0重磅来袭!全面拥抱AI,单机及集群模式安装详细教程!

之前和大家分享过JDK17的多版本管理及详细安装过程,然后在项目升级完jdk17后又发现之前的注册和配置中心nacos又用不了,原因是之前的nacos1.3版本的,版本太老了,已经无法适配当前新的JD...

爬虫搞崩网站后,程序员自制“Zip炸弹”反击,6刀服务器成功扛住4.6万请求

在这个爬虫横行的时代,越来越多开发者深受其害:有人怒斥OpenAI的爬虫疯狂“偷”数据,7人团队十年心血的网站一夜崩溃;也有人被爬虫逼到极限,最后只好封掉整个巴西的访问才勉强止血。但本文作者却走...

Ubuntu 操作系统常用命令详解(ubuntu必学的60个命令)

UbuntuLinux是一款流行的开源操作系统,广泛应用于服务器、开发、学习等场景。命令行是Ubuntu的灵魂,也是高效、稳定管理系统的利器。本文按照各大常用领域,详细总结Ubuntu必学...

Linux面板8.0.54 测试版-已上线(linux主机面板)

Linux面板8.0.54测试版【增加】[网站]Java项目新增刷新列表按钮【增加】[网站]PHP项目-Apache-服务新增守护进程功能【增加】[网站]Python项目创建/删除网站时新增同时创建...

开源三剑客——构建私有云世界的基石

公共云原生的浪潮正在席卷这个世界,亚马逊AWS、谷歌GCP和微软的Azure年收入增长超过了30%,越来越多的公司和个人开始将自己的服务部署到云环境中,大型数据中心的规模经济带来了成本的降低,可以在保...

2.2k star,一款业界领先的私有云+在线文档管理系统

简介kodbox可道云(原KodExplorer)是业内领先的企业私有云和在线文档管理系统,为个人网站、企业私有云部署、网络存储、在线文档管理、在线办公等提供安全可控,简便易用、可高度定制的私有云产品...