hivecatalog - 第2页 - 比格导航

hivecatalog 第2页

2021版大数据知识点之Presto: 1.什么是prestopresto是一个开源的分布式的查询引擎，基于内存，它本身不接入数据，可以连接多种数据源，例如Hive,Mysql,Kafka,MongeDB等，一条Presto查询可以将多个数据源进行合并查询。preto适合OLAP,而非OLTP,所以不要将preto当成数据库来使用。2...

Hive架构及搭建方式: Hive架构及搭建方式[TOC]前言本文档基于hive3.1.2编写hive的基础知识基本架构整个hive由hiveserver2和hive客户端组成hive客户端有三种，beeline、使用jdbc链接hiveserver、或使用hiveCLI(这个已经过时，hive官方已经不推荐，推荐b...

数据导入——通过外部表同步数据: Doris可以创建外部表。创建完成后，可以通过SELECT语句直接查询外部表的数据，也可以通过INSERTINTOSELECT的方式导入外部表的数据。Doris外部表目前支持的数据源包括：MySQLOraclePostgreSQL...

0318-如何为Presto集成Kerberos环境下的Hive: 温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github：https://github.com/fayson/cdhproject提示：代码块部分可以左右滑动查看噢在前面的文章Fayson介绍了《如何在CDH集群中部署Presto》以及Pr...

Flink CDC connect DB To Hive: 1.FlinkCDC是什么？做数仓的伙伴们都知道第一步就是考虑如何"入仓"或者"入湖".同步方式细分下来有四种，全量、增量、新增及变化、缓慢变化。实际生产中大部分情况其实也就考虑全量和新增及变化。首先说CDC(ChangeDataCapture)技术主要...

「大数据系列」:Apache Hive 分布式数据仓库项目介绍: ApacheHive?数据仓库软件有助于读取，编写和管理驻留在分布式存储中的大型数据集并进行查询使用SQL语法。Hive特性Hive构建于ApacheHadoop?之上，提供以下功能：通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析。一种在各种数...

京东:Flink SQL 优化实战: 本文作者为京东算法服务部的张颖和段学浩，并由ApacheHivePMC，阿里巴巴技术专家李锐帮忙校对。主要内容为：1.背景2.FlinkSQL的优化3.总结一、背景目前，京东搜索推荐的数据处理流程如上图所示。可以看到实时和离线是分开的，离线数据处理大部分用的是Hive/Spark，实...

Flink源码分析之深度解读流式数据写入hive: 前言数据流处理详解StreamingFileWriter简述StreamingFileSink分区信息提交总结前言前段时间我们讲解了flink1.11中如何将流式数据写入文件系统和hive[flink1.11使用sql将流式数据写入hive]，今天我们来从源码的角度深入分析一下。以便朋友们对f...

Flink1.11+Hive批流一体数仓: 导读：Flink从1.9.0开始提供与Hive集成的功能，随着几个版本的迭代，在最新的Flink1.11中，与Hive集成的功能进一步深化，并且开始尝试将流计算场景与Hive进行整合。本文主要分享在Flink1.11中对接Hive的新特性，以及如何利用Flink对Hive数仓进行实时化改造，从而...

以一次 Data Catalog 架构升级为例聊业务系统的性能优化: 摘要字节的DataCatalog系统，在2021年进行过大规模重构，新版本的存储层基于ApacheAtlas实现。迁移过程中，我们遇到了比较多的性能问题。本文以DataCatalog系统升级过程为例，与大家讨论业务系统性能优化方面的思考，也会介绍我们关于ApacheAtlas...

‹‹ ‹ 1 2 3 › ››

首页
收录
顶部