百度360必应搜狗淘宝本站头条

hivecatalog 第2页

    2021版大数据知识点之Presto

    1.什么是prestopresto是一个开源的分布式的查询引擎,基于内存,它本身不接入数据,可以连接多种数据源,例如Hive,Mysql,Kafka,MongeDB等,一条Presto查询可以将多个数据源进行合并查询。preto适合OLAP,而非OLTP,所以不要将preto当成数据库来使用。2...

    Hive架构及搭建方式

    Hive架构及搭建方式[TOC]前言本文档基于hive3.1.2编写hive的基础知识基本架构整个hive由hiveserver2和hive客户端组成hive客户端有三种,beeline、使用jdbc链接hiveserver、或使用hiveCLI(这个已经过时,hive官方已经不推荐,推荐b...

    数据导入——通过外部表同步数据

    Doris可以创建外部表。创建完成后,可以通过SELECT语句直接查询外部表的数据,也可以通过INSERTINTOSELECT的方式导入外部表的数据。Doris外部表目前支持的数据源包括:MySQLOraclePostgreSQL...

    0318-如何为Presto集成Kerberos环境下的Hive

    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢在前面的文章Fayson介绍了《如何在CDH集群中部署Presto》以及Pr...

    Flink CDC connect DB To Hive

    1.FlinkCDC是什么?做数仓的伙伴们都知道第一步就是考虑如何"入仓"或者"入湖".同步方式细分下来有四种,全量、增量、新增及变化、缓慢变化。实际生产中大部分情况其实也就考虑全量和新增及变化。首先说CDC(ChangeDataCapture)技术主要...

    「大数据系列」:Apache Hive 分布式数据仓库项目介绍

    ApacheHive?数据仓库软件有助于读取,编写和管理驻留在分布式存储中的大型数据集并进行查询使用SQL语法。Hive特性Hive构建于ApacheHadoop?之上,提供以下功能:通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析。一种在各种数...

    京东:Flink SQL 优化实战

    本文作者为京东算法服务部的张颖和段学浩,并由ApacheHivePMC,阿里巴巴技术专家李锐帮忙校对。主要内容为:1.背景2.FlinkSQL的优化3.总结一、背景目前,京东搜索推荐的数据处理流程如上图所示。可以看到实时和离线是分开的,离线数据处理大部分用的是Hive/Spark,实...

    Flink源码分析之深度解读流式数据写入hive

    前言数据流处理详解StreamingFileWriter简述StreamingFileSink分区信息提交总结前言前段时间我们讲解了flink1.11中如何将流式数据写入文件系统和hive[flink1.11使用sql将流式数据写入hive],今天我们来从源码的角度深入分析一下。以便朋友们对f...

    Flink1.11+Hive批流一体数仓

    导读:Flink从1.9.0开始提供与Hive集成的功能,随着几个版本的迭代,在最新的Flink1.11中,与Hive集成的功能进一步深化,并且开始尝试将流计算场景与Hive进行整合。本文主要分享在Flink1.11中对接Hive的新特性,以及如何利用Flink对Hive数仓进行实时化改造,从而...

    以一次 Data Catalog 架构升级为例聊业务系统的性能优化

    摘要字节的DataCatalog系统,在2021年进行过大规模重构,新版本的存储层基于ApacheAtlas实现。迁移过程中,我们遇到了比较多的性能问题。本文以DataCatalog系统升级过程为例,与大家讨论业务系统性能优化方面的思考,也会介绍我们关于ApacheAtlas...