百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

大数据产品研究 - Presto组成与概念

bigegpt 2024-08-26 11:13 2 浏览

?前言

我在上篇文章中,对Presto是什么、能做什么做了简单的介绍,本篇文章,带大家一起来了解一下Presto的各个组件及其作用。这些组件贯穿于Presto整个使用文档中,所以要很好的理解和使用Presto,首先把他们分别是什么、用来做什么弄清楚,很重要。

接下来会对这些组件进行一一介绍,包括什么是协调者,什么是工作者,什么是连接器等,当然为了遵从大家的理解习惯,有一些英文仍然会保留。

?服务角色类型(Server Types)

Presto服务角色分为两种类型:协调者(coordinators)和工作者(workers)。接下来解释一下这两者之间的不同。

协调者(Coordinator)

Presto的coordinator服务用来解析查询语句、生成查询计划,并管理Presto的worker节点。它是Presto集群的“大脑”,对外提供客户端连接服务,接受查询语句。每一个Presto集群都必须包含1个coordinator和多个worker。在开发或测试环境中,一个单实例的Presto服务也可以同事承担这两个角色。

coordinator通常会对每个worker上的活动进行追踪,并协调查询的执行。在查询开始之前,coordinator会创建一个包含查询各个阶段的逻辑模型,并将它们转换成能在Presto集群worker上执行的一系列相关任务。

coordinator与worker和客户端之前通过REST API进行通信。

工作者(Worker)

Presto集群中的worker是一个用来执行任务和处理数据的服务。worker节点使用connector连接器从数据源获取数据,并在worker之间进行内部数据交换。协调者coordinator的职责是从workers获取结果并将最终的结果返回给客户端。

当一个Presto worker进程启动时,它会向coordinator的发现服务发送信息,这就使coordinator可以获知它的状态并给他下发任务执行。

Presto的worker之间及worker和coordinator之间通过REST API进行通信。

?Data Sources

你可能已经听说过一些Presto的概念,比如connector, catalog, schema, table,这些都是和Presto的数据源相关的概念。接下来对这些概念进行论述。

连接器(Connector)

连接器Connector是Presto相对于数据源的一些连接适配器,这些数据源可能是Hive或其他关系型数据库。连接器可以看作是特定数据库的驱动。连接器是Presto SPI的具体实现,通过这些标准实现,让Presto可以采用标准API的方式与任何数据源进行交互。

Presto包含很多内建的连接器,例如:JMX连接器,提供对内建系统表访问的连接器,Hive连接器,用来做TPC-H测试的TPCH连接器。另外还有一些第三方开发者贡献的各种各样的连接器,可以让Presto访问多种多样的数据源。

每一个catalog都与一个特定的连接器相关。如果你查看catalog的配置文件,你会发现每一个文件都包含一个固定的属性connector.name,该属性被catalog管理器用来针对给定的信息创建一个特定的连接器。另外catalog和connector可以是多对一的关系,也就是说,可以采用同一个connector配置2个catalog来连接两个同类数据库的不同实例。比如:你可以采用Hive connector在同一个Presto里面连接到两个不同的Hive集群中进行查询聚合,此时的2个catalog配置对应的是1个Hive connector。

目录(Catalog)

Presto catalog包含模式信息,它通过connector与数据源形成关联。例如,可以通过配置JMX catalog来使用JMX连接器连接到JMX获取信息。当你在Presto中运行一个SQL查询时,这个查询有可能就会跟一个或多个catalog进行联动。

当你在Presto中指定一张表时,这张表其实并不在Presto中,而是在catalog指定的源端数据库中。比如说,一张全名为hive.test_data.test的表,应该映射到Hive catalog的test_data模式下的test表。

所有的catalog信息都在Presto配置路径下的属性文件中进行配置。

模式(Schema)

模式是组织表的一种方式。目录和模式一起定义了一组可以查询的表。当使用Presto访问Hive或关系数据库(如MySQL)时,模式会转换为目标数据库中的相同概念。其他类型的连接器可以选择以对底层数据源有意义的方式将表组织到模式中。

表(Table)

表是一组无序的行,这些行拥有不同的类型,并由多列组成。这与任何关系数据库中的情况都相同。从源数据到表的映射在连接器中进行定义。

?查询执行模型

Presto通过在一个由coordinator和worker组成的集群中执行SQL语句,协调各个组件尽量并行工作,然后返回结果给客户端。

语句(Statement)

Presto执行ANSI标准SQL语句。Presto在设计过程中就严格遵从了ANSI SQL中的标准语法、表达式及断言等。

查询(Query)

当Presto解析一个查询语句时,它会将该语句解析成分布式查询计划,这个计划由不同的阶段构成,每个阶段都运行在worker上。查询和语句之间的不同之处也很简单。语句可以认为是传递给Presto的SQL文本,查询可以认为是执行语句的配置和组件信息。查询会由stages, tasks, splits, connectors, components 和数据源等不同的功能划分构成。

1)阶段(Stage)

当Presto执行查询时,它通过将执行分解为一个阶段层次结构来执行查询。例如,如果Presto需要从存储在Hive中的10亿行数据中聚合数据,那么它可以通过创建一个根阶段来聚合其他几个阶段的输出,所有这些阶段都是为了实现分布式查询计划的不同部分而设计的。

包含查询的阶段层次结构类似于树。每个查询都有一个根阶段,负责聚合其他阶段的输出。阶段是协调器coordinator用来为分布式查询计划建模的,但阶段本身并不在Presto worker上运行。

2)任务(Task)

如前一节所述,阶段为分布式查询计划的特定部分建模,但阶段本身不会在Presto worker上执行。要了解一个阶段是如何执行的,您需要了解一个阶段是作为一系列任务实现的,这些任务分布在一个Presto Worker网络上。

在Presto体系结构中,任务是“work horse”,因为分布式查询计划被分解为一系列阶段,然后这些阶段被转换为任务,这些任务随后执行操作或流程拆分。Presto任务具有输入和输出,正如一个阶段可以由一系列任务并行执行一样,一个任务也可以由一系列驱动程序并行执行。

3)拆分(Split)

任务在拆分上运行,拆分是较大数据集的一部分。分布式查询计划最低级别的阶段通过连接器的拆分检索数据,而分布式查询计划较高级别的中间阶段则从其他阶段检索数据。

当Presto计划查询时,协调器将查询连接器,以获取表中可用的所有拆分的列表。协调器跟踪哪些机器正在运行哪些任务以及哪些任务正在处理哪些拆分。

4)驱动(Driver)

任务包含一个或多个并行驱动程序。驱动程序对数据进行操作,并结合运算符生成输出,然后由一个任务聚合,然后在另一个阶段传递到另一个任务。驱动程序是一系列运算符实例,也可以将驱动程序视为内存中的一组物理运算符。它是Presto体系结构中最低级别的并行。驱动器有一个输入和一个输出。

5)操作员(Operator)

操作员消费、转换和生成数据。例如,表扫描从连接器获取数据并生成可由其他运算符使用的数据,筛选运算符通过对输入数据应用谓词来使用数据并生成子集。

6)交换(Exchange)

在查询的不同阶段的Presto节点之间交换传输数据。任务将数据生成到输出缓冲区,并使用exchange客户端使用来自其他任务的数据。

相关推荐

Docker篇(二):Docker实战,命令解析

大家好,我是杰哥上周我们通过几个问题,让大家对于Docker有了一个全局的认识。然而,说跟练往往是两个概念。从学习的角度来说,理论知识的学习,往往只是第一步,只有经过实战,才能真正掌握一门技术所以,本...

docker学习笔记——安装和基本操作

今天学习了docker的基本知识,记录一下docker的安装步骤和基本命令(以CentOS7.x为例)一、安装docker的步骤:1.yuminstall-yyum-utils2.yum-con...

不可错过的Docker完整笔记(dockerhib)

简介一、Docker简介Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源。Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,...

扔掉运营商的 IPTV 机顶盒,全屋全设备畅看 IPTV!

其实现在看电视节目的需求确实大大降低了,折腾也只是为了单纯的让它实现,享受这个过程带来的快乐而已,哈哈!预期构想家里所有设备直接接入网络随时接收并播放IPTV直播(电信点播的节目不是太多,但好在非常稳...

第五节 Docker 入门实践:从 Hello World 到容器操作

一、Docker容器基础运行(一)单次命令执行通过dockerrun命令可以直接在容器中执行指定命令,这是体验Docker最快捷的方式:#在ubuntu:15.10容器中执行ech...

替代Docker build的Buildah简单介绍

Buildah是用于通过较低级别的coreutils接口构建OCI兼容镜像的工具。与Podman相似,Buildah不依赖于Docker或CRI-O之类的守护程序,并且不需要root特权。Builda...

Docker 命令大全(docker命令大全记录表)

容器生命周期管理run-创建并启动一个新的容器。start/stop/restart-这些命令主要用于启动、停止和重启容器。kill-立即终止一个或多个正在运行的容器rm-于删除一个或...

docker常用指令及安装rabbitMQ(docker安装rabbitmq配置环境)

一、docker常用指令启动docker:systemctlstartdocker停止docker:systemctlstopdocker重启docker:systemctlrestart...

使用Docker快速部署Storm环境(docker部署confluence)

Storm的部署虽然不是特别麻烦,但是在生产环境中,为了提高部署效率,方便管理维护,使用Docker来统一管理部署是一个不错的选择。下面是我开源的一个新的项目,一个配置好了storm与mono环境的D...

Docker Desktop安装使用指南:零基础教程

在之前的文章中,我多次提到使用Docker来安装各类软件,尤其是开源软件应用。鉴于不少读者对此有需求,我决定专门制作一期关于Docker安装与使用的详细教程。我主要以Macbook(Mac平台)为例进...

Linux如何成功地离线安装docker(linux离线安装httpd)

系统环境:Redhat7.2和Centos7.4实测成功近期因项目需要用docker,所以记录一些相关知识,由于生产环境是不能直接连接互联网,尝试在linux中离线安装docker。步骤1.下载...

Docker 类面试题(常见问题)(docker面试题目)

Docker常见问题汇总镜像相关1、如何批量清理临时镜像文件?可以使用sudodockerrmi$(sudodockerimages-q-fdanging=true)命令2、如何查看...

面试官:你知道Dubbo怎么优雅上下线的吗?你:优雅上下线是啥?

最近无论是校招还是社招,都进行的如火如荼,我也承担了很多的面试工作,在一次面试过程中,和候选人聊了一些关于Dubbo的知识。Dubbo是一个比较著名的RPC框架,很多人对于他的一些网络通信、通信协议、...

【Docker 新手入门指南】第五章:Hello Word

适合人群:完全零基础新手|学习目标:30分钟掌握Docker核心操作一、准备工作:先确认是否安装成功打开终端(Windows用户用PowerShell或GitBash),输入:docker--...

松勤软件测试:详解Docker,如何用portainer管理Docker容器

镜像管理搜索镜像dockersearch镜像名称拉取镜像dockerpullname[:tag]列出镜像dockerimages删除镜像dockerrmiimage名称或id删除...