流批一体化-实时数仓架构 批流统一
bigegpt 2024-10-26 08:22 24 浏览
背景
T0 和 TN 处理逻辑分离和使用计算框架不一致导致 存储浪费、计算口径不一致、计算框架(HiveSQL/SparkSQL/Flink)本身语义不同、流批统一数据对外服务难度高误差大、维护成本高等问题
流批一体化-实时数仓架构
左一为架构分层,左二为技术选型,左三为架构产品化,左四为架构产品化 模块划分、核心功能划分。
一、数据源
数据来源主要为前置机业务数据及其变更,其次为平台组件日志或服务以便于监控。
二、数据接入
对于累积的全量数据使用 DataX 或 Sqoop 等成熟工具批量导入到平台,对于 BinLog 使用相应的 CDC 工具(oracle->ogg, mysql->canal 等)流式导入到平台。
三、存储计算
使用 Kafka 作为存储组件,使用 Flink 作为实时计算引擎。
四、数据服务
按照使用需求和场景,
- 对于大屏、看板类的实时业务,可将 Kafka 数据同步到 Database、Redis、ElasticSearch 等 OLTP存储引擎,减少 Web 开发难度。
- 对于实时处理、在线分析等场景,可以基于 Kafka 消息队列订阅消费或构造实时数仓
- 对于离线分析,可以将 Kafka 实时数据入湖后基于数据湖满足 HiveOnMR、HiveOnSpark、HiveOnFlink 等使用场景
五、产品化
描述该架构具备的能力,有支持实时类业务、实时数仓、离线分析场景的能力。
六、前端开发平台
前端开发平台是基于浏览器、为数据开发人员提供的数据生产开发工具。
前端开发平台模块划分
1.元数据平台
a. 维护平台所有数据资产的元数据,包括数据源、Schema、主键、存储方式等信息
b. 数据血缘地图
2.任务调度平台
a. 调度: 平台所有任务都会构建成一张有向无环图。批处理任务、流处理任务都是图中有依赖关系的节点。以 sql 类型任务为主,支持提交 jar 包及其执行命令作为一个调度节点。
a.1 批处理调度: 将有边界的数据(Hadoop、DataBase、FileSystem)导入到平台存储。产出的数据可供后续流处理任务使用。
a.2 流处理调度: 任务常驻、处理无边界的数据,产出的数据可供后续流处理任务使用。
b. 数据血缘地图: 依据任务之间的依赖关系,构造数据血缘地图。简化数据开发人员口口相传、人工记忆 表逻辑计算-传递关系的模式。
3.监控平台
3.1 任务状态监控: 基于 Yarn、Flink 监控任务状态,Checkpoint、State 等
3.2 数据峰谷监控: 基于 Kafka 自身工具或者 Kafka Manager 监控数据波峰波谷,产出数量异常
3.3 运维监控: 组件自身、存储、网络
数据生产流程
对应上图的"存储计算"->"Kafka Flink"
架构优劣对比
相对第一版(借助支持高并发、随机多维查询的高性能缓存,监控维度表变更追溯事实表的可能变更),区别是:
- 不再使用"外部存储作为中间缓存",改为使用 Flink 引擎本身的 State
优势
a. 架构简单,降低了开发、运维成本
劣势
b.同一份维度表会在多个任务的状态中维护。且需要做好建模,尽量减少事实表维度化场景。
2.不再使用"维度更改追溯事实表机制",改为使用 主键 + 动态表(ChangeLog 流)。
优势
a.数据规模可控,且没有无效数据。e.g. App1 a join b; App2 a join c. b表 c 表变更都会汇总到 a 表对应的 topic 中以触发结果数据重计算,但是 App1和App2 均不需要关注对方的变更。无效变更既增加了 topic 存储成本,又增加了计算和数据湖操作成本。事实表扩展出去的业务逻辑越多,无效数据就越多,存储计算消耗越高,生产效率越低。架构能力上限较低。
b.任务粒度通用计算框架。e.g. App2 关联逻辑变更,则需要停止追溯框架、重新生成 版本级别的关联关系图,对于 App1 和其他 App 来说耦合度较高。
劣势
a.需要额外定义主键, 增加了人工成本
b.需要将基础表转化为动态表,增加了平台开发成本
生产模式对比
优势
- 无需存储多个版本(snapshot)的数据。数据只有一个版本: 最新版本
- 无需维护流处理、流处理两种计算逻辑及批流数据合并
劣势
- 思维方式需要从批处理模式切换到流处理模式,使用难度更高,增加了学习成本。
- 有部分计算逻辑基于 Spark 计算框架,切换到 Flink 需要很高的开发成本。
- 对数据生产模块的影响: 增加数据质控难度等
其他
- 颠覆了以往数据生产模式: T+0,T+1,T+N。
- Flink App 需要的内存较 Spark 少,但 Flink App 常驻进程。
相关推荐
- AI「自我复制」能力曝光,RepliBench警示:大模型正在学会伪造身份
-
科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源...
- 【Python第三方库安装】介绍8种情况,这里最全看这里就够了!
-
**本图文作品主要解决CMD或pycharm终端下载安装第三方库可能出错的问题**本作品介绍了8种安装方法,这里最全的python第三方库安装教程,简单易上手,满满干货!希望大家能愉快地写代码,而不要...
- pyvips,一个神奇的 Python 库!(pythonvip视频)
-
大家好,今天为大家分享一个神奇的Python库-pyvips。在图像处理领域,高效和快速的图像处理工具对于开发者来说至关重要。pyvips是一个强大的Python库,基于libvips...
- mac 安装tesseract、pytesseract以及简单使用
-
一.tesseract-OCR的介绍1.tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。2.用te...
- 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
-
号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?就在发布后的几小时内,网友们的第一波实测已新鲜出炉。最强推理模型o3,即使遇上首位全职提示词工程师RileyGoodsid...
- 使用Python将图片转换为字符画并保存到文件
-
字符画(ASCIIArt)是将图片转换为由字符组成的艺术作品。利用Python,我们可以轻松实现图片转字符画的功能。本教程将带你一步步实现这个功能,并详细解释每一步的代码和实现原理。环境准备首先,你...
- 5分钟-python包管理器pip安装(python pip安装包)
-
pip是一个现代的,通用、普遍的Python包管理工具。提供了对Python包的查找、下载、安装、卸载的功能,是Python开发的基础。第一步:PC端打开网址:选择gz后缀的文件下载第二步:...
- 网络问题快速排查,你也能当好自己家的网络攻城狮
-
前面写了一篇关于网络基础和常见故障排查的,只列举了工具。没具体排查方式。这篇重点把几个常用工具的组合讲解一下。先有请今天的主角:nslookup及dig,traceroute,httping,teln...
- 终于把TCP/IP 协议讲的明明白白了,再也不怕被问三次握手了
-
文:涤生_Woo下周就开始和大家成体系的讲hadoop了,里面的每一个模块的技术细节我都会涉及到,希望大家会喜欢。当然了你也可以评论或者留言自己喜欢的技术,还是那句话,希望咱们一起进步。今天周五,讲讲...
- 记一次工控触摸屏故障的处理(工控触摸屏维修)
-
先说明一下,虽然我是自动化专业毕业,但已经很多年不从事现场一线的工控工作了。但自己在单位做的工作也牵涉到信息化与自动化的整合,所以平时也略有关注。上一周一个朋友接到一个活,一家光伏企业用于启动机组的触...
- 19、90秒快速“读懂”路由、交换命令行基础
-
命令行视图VRP分层的命令结构定义了很多命令行视图,每条命令只能在特定的视图中执行。本例介绍了常见的命令行视图。每个命令都注册在一个或多个命令视图下,用户只有先进入这个命令所在的视图,才能运行相应的命...
- 摄像头没图像的几个检查方法(摄像头没图像怎么修复)
-
背景描述:安防监控项目上,用户的摄像头运行了一段时间有部分摄像头不能进行预览,需要针对不能预览的摄像头进行排查,下面列出几个常见的排查方法。问题解决:一般情况为网络、供电、设备配置等情况。一,网络检查...
- 小谈:必需脂肪酸(必需脂肪酸主要包括)
-
必需脂肪酸是指机体生命活动必不可少,但机体自身又不能合成,必需由食物供给的多不饱和脂肪酸(PUFA)。必需脂肪酸主要包括两种,一种是ω-3系列的α-亚麻酸(18:3),一种是ω-6系列的亚油酸(18:...
- 期刊推荐:15本sci四区易发表的机械类期刊
-
虽然,Sci四区期刊相比收录在sci一区、二区、三区的期刊来说要求不是那么高,投稿起来也相对容易一些。但,sci四区所收录的期刊中每本期刊的投稿难易程度也是不一样的。为方便大家投稿,本文给大家推荐...
- be sick of 用法考察(be in lack of的用法)
-
besick表示病了,做谓语.本身是形容词,有多种意思.最通常的是:生病,恶心,呕吐,不适,晕,厌烦,无法忍受asickchild生病的孩子Hermother'sverysi...
- 一周热门
- 最近发表
-
- AI「自我复制」能力曝光,RepliBench警示:大模型正在学会伪造身份
- 【Python第三方库安装】介绍8种情况,这里最全看这里就够了!
- pyvips,一个神奇的 Python 库!(pythonvip视频)
- mac 安装tesseract、pytesseract以及简单使用
- 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
- 使用Python将图片转换为字符画并保存到文件
- 5分钟-python包管理器pip安装(python pip安装包)
- 网络问题快速排查,你也能当好自己家的网络攻城狮
- 终于把TCP/IP 协议讲的明明白白了,再也不怕被问三次握手了
- 记一次工控触摸屏故障的处理(工控触摸屏维修)
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- oracle时间戳转换日期 (64)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)