百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Kafka TO Doris 保姆级入门详解 kafka tools

bigegpt 2024-10-19 02:49 10 浏览

导读 本文主要分享如何快速将Kafka数据接入至Doris。

全文目录:

  1. 环境信息
  2. Kafka介绍
  3. Kafka安装部署
  4. Routine Load介绍
  5. Routine Load体验
  6. Routine Load常见问题



环境信息

1. 硬件信息

  • CPU:4C
  • CPU架构:ARM
  • 内存:8G
  • 硬盘:66G SSD

2. 软件信息

  • VM镜像版本:CentOS-7
  • Apache Doris版本:2.0.2-rc05
  • Apache Kafka版本:3.2.0

Kafka介绍

Apache Kafka 是一个高效、可扩展的、高吞吐的、可容错的分布式发布订阅式的消息系统,能够将消息数据从一个端点传递到另一个端点,较之传统的消息中间件(例如 RocketMQ、RabbitMQ),Kafka 具有高吞吐量、内置分区、支持消息副本和高容错的特性,非常适合大规模消息数据处理。

Kafka安装部署

1. Kafka下载

#根据自己scala版本和系统进行下载
wget https://archive.apache.org/dist/kafka/3.2.0/kafka_2.12-3.2.0.tgz


#创建安装文件夹
mkdir -p /opt/kafka3.2
cd /opt/kafka3.2


#解压安装
tar -xvf kafka_2.12-3.2.0.tgz
mv kafka_2.12-3.2.0.tgz/* ./
rm -rf kafka_2.12-3.2.0.tgz*


#创建日志目录
mkdir logs

2. Kafka初始化

修改kafka-server配置。

#修改kafka-server的配置文件
vim config/server.properties


#修改如下
log.dirs=/opt/kafka3.2/logs
listeners=PLAINTEXT://doris:9092
auto.create.topics.enable=true


#其它的如果是单机可以不用改
port=9092 #端口号 
host.name=localhost #单机可直接用localhost
log.dirs=/opt/monitor/kafka/kafka_dat #日志存放路径可修改可不修改
zookeeper.connect=localhost:2181 #zookeeper地址和端口,单机配置部署,localhost:2181 

修改自带zookeeper配置,也可以自己另外部署zk不适用自带的zk

vim config/zookeeper.properties 


#修改如下
tickTime=2000
dataDir=/opt/kafka3.2/zookeeper_data


#创建zk的数据存储目录
mkdir /opt/kafka3.2/zookeeper_data

3. 启动Kafka和ZK

#启动ZK
./bin/zookeeper-server-start.sh -daemon  ./config/zookeeper.properties 
#启动Kafka
./bin/kafka-server-start.sh -daemon  ./config/server.properties   


#jps查看进程
jps

4. 服务测试

① Topic测试。

#创建topic,使用 kafka-topics.sh 创建单分区单副本的 topic test01
./bin/kafka-topics.sh --create --bootstrap-server doris:9092 --replication-factor 1 --partitions 1 --topic test01


#查询topic列表
./bin/kafka-topics.sh --list --bootstrap-server doris:9092
#指定查看
./bin/kafka-topics.sh --bootstrap-server doris:9092 --describe --topic test01


#删除topic
./bin/kafka-topics.sh --bootstrap-server doris:9092 --delete --topic test01

② Producer测试。

#开一个窗,启动生产者
./bin/kafka-console-producer.sh --broker-list doris:9092 --topic test01

③ Consumer测试。

#开一个窗,启动消费者
#旧版本
./bin/kafka-console-consumer.sh --bootstrap-server doris:9092 --topic test01 --from-beginning
#新版本
./bin/kafka-console-consumer.sh --bootstrap-server doris:9092 --topic test01 --from-beginning


#查看kafka生产最大位置偏移量
./bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list doris:9092 --topic test01 --time -1

Routine Load介绍

Routine Load适合Kafka直接实时写数据到Doris的场景;它支持用户提交一个常驻的导入任务,通过不断地从指定的数据源中读取数据,将数据导入到 Doris 中。

场景说明:

① Kafka To Doris可支持单表或多表导入

② Kafka数据直接同步至Doris对应表中,并可进行where数据筛选

③ 不适合硬删除的源数据,如果是硬删除建议转一次Flink改为软删除入Doris或其它方式处理

Routine Load体验

1. 创建Doris结果测试表

-- 创建测试库
create database routine_load;


-- 切换为测试库
use routine_load;


-- 创建测试结果表
CREATE TABLE rl_test01 (
  `id` varchar(1000) NULL COMMENT "来源库表键",
  `test01` BIGINT SUM DEFAULT "0" COMMENT "测试"
) ENGINE=OLAP
AGGREGATE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1",
"in_memory" = "false",
"storage_format" = "V2"
);

2. 创建Routine Load任务

CREATE ROUTINE LOAD routine_load.rl_test01 -- db.任务名,任务名可自定义
    ON rl_test01 -- 与表名同名
        COLUMNS TERMINATED BY ",", -- 默认空格
        COLUMNS(id,test01) -- 字段名和表里对应
        PROPERTIES
        (
            "desired_concurrent_number"="3",
            "max_batch_interval" = "20",
            "max_batch_rows" = "200000",
            "max_batch_size" = "209715200",
            "strict_mode" = "true", -- 默认为false,建议开启;开启后如果有shcema质量问题会在SHOW ROUTINE LOAD中的ErrorLogUrls中输出详情URL
            "format" = "json" -- 默认为csv
        )
        FROM KAFKA
        (
            "kafka_broker_list" = "192.168.1.61:9092",
            "kafka_topic" = "rl_test01", -- 对应的topic名
            "property.group.id" = "rl_test01_group", -- 可自定义
            "property.client.id" = "rl_test01_client", -- 可自定义
            "property.kafka_default_offsets" = "OFFSET_BEGINNING" -- 两个可选参数;OFFSET_BEGINNING: 从有数据的位置开始订阅;OFFSET_END: 从末尾开始订阅
        );

3. 查看Routine Load

SHOW ROUTINE LOAD


--   有以下4种State:
--   * NEED_SCHEDULE:作业等待被调度
--   * RUNNING:作业运行中
--   * PAUSED:作业被暂停
--   * STOPPED:作业已结束
--   * CANCELLED:作业已取消
RESUME ROUTINE LOAD FOR rl_test01.rl_test01

4. 发送Kafka测试数据

./bin/kafka-console-producer.sh --broker-list doris:9092 --topic rl_test01


# 测试数据如下

5. 查看Doris结果数据

select * from rl_test01

Routine Load常见问题

1. failed to get all partitions of kafka topic

异常详情:detailMessage = Failed to get all partitions of kafka topic: rl_test01

可能原因:

  • 机房访问不了本地host
  • kafka未提前设置自动创建topic,即topic不存在需要创建

2. current error rows is more than max error num

异常详情:ErrorReason{code=errCode = 102, msg=‘current error rows is more than max error num’}

原因:

max_error_number:默认为0导致,即不允许有错误行

3. host resolution failure

be.INFO异常详情:kafka error: Local: Host resolution failure, event: GroupCoordinator: kafka:9092: Failed to resolve 'kafka:9092': Name or service not known (after 8ms in state CONNECT)

原因:

be节点中未配置kafka集群host导致;无论FE还是BE都需要与Kafka集群保证网络互通,如果使用了host,则be节点也需要在/etc/hosts中配置相应的host

至此,《Kafka TO Doris 保姆级入门详解》分享结束,查阅过程中若遇到问题欢迎留言交流。

相关推荐

当Frida来“敲”门(frida是什么)

0x1渗透测试瓶颈目前,碰到越来越多的大客户都会将核心资产业务集中在统一的APP上,或者对自己比较重要的APP,如自己的主业务,办公APP进行加壳,流量加密,投入了很多精力在移动端的防护上。而现在挖...

服务端性能测试实战3-性能测试脚本开发

前言在前面的两篇文章中,我们分别介绍了性能测试的理论知识以及性能测试计划制定,本篇文章将重点介绍性能测试脚本开发。脚本开发将分为两个阶段:阶段一:了解各个接口的入参、出参,使用Python代码模拟前端...

Springboot整合Apache Ftpserver拓展功能及业务讲解(三)

今日分享每天分享技术实战干货,技术在于积累和收藏,希望可以帮助到您,同时也希望获得您的支持和关注。架构开源地址:https://gitee.com/msxyspringboot整合Ftpserver参...

Linux和Windows下:Python Crypto模块安装方式区别

一、Linux环境下:fromCrypto.SignatureimportPKCS1_v1_5如果导包报错:ImportError:Nomodulenamed'Crypt...

Python 3 加密简介(python des加密解密)

Python3的标准库中是没多少用来解决加密的,不过却有用于处理哈希的库。在这里我们会对其进行一个简单的介绍,但重点会放在两个第三方的软件包:PyCrypto和cryptography上,我...

怎样从零开始编译一个魔兽世界开源服务端Windows

第二章:编译和安装我是艾西,上期我们讲述到编译一个魔兽世界开源服务端环境准备,那么今天跟大家聊聊怎么编译和安装我们直接进入正题(上一章没有看到的小伙伴可以点我主页查看)编译服务端:在D盘新建一个文件夹...

附1-Conda部署安装及基本使用(conda安装教程)

Windows环境安装安装介质下载下载地址:https://www.anaconda.com/products/individual安装Anaconda安装时,选择自定义安装,选择自定义安装路径:配置...

如何配置全世界最小的 MySQL 服务器

配置全世界最小的MySQL服务器——如何在一块IntelEdison为控制板上安装一个MySQL服务器。介绍在我最近的一篇博文中,物联网,消息以及MySQL,我展示了如果Partic...

如何使用Github Action来自动化编译PolarDB-PG数据库

随着PolarDB在国产数据库领域荣膺桂冠并持续获得广泛认可,越来越多的学生和技术爱好者开始关注并涉足这款由阿里巴巴集团倾力打造且性能卓越的关系型云原生数据库。有很多同学想要上手尝试,却卡在了编译数据...

面向NDK开发者的Android 7.0变更(ndk android.mk)

订阅Google官方微信公众号:谷歌开发者。与谷歌一起创造未来!受Android平台其他改进的影响,为了方便加载本机代码,AndroidM和N中的动态链接器对编写整洁且跨平台兼容的本机...

信创改造--人大金仓(Kingbase)数据库安装、备份恢复的问题纪要

问题一:在安装KingbaseES时,安装用户对于安装路径需有“读”、“写”、“执行”的权限。在Linux系统中,需要以非root用户执行安装程序,且该用户要有标准的home目录,您可...

OpenSSH 安全漏洞,修补操作一手掌握

1.漏洞概述近日,国家信息安全漏洞库(CNNVD)收到关于OpenSSH安全漏洞(CNNVD-202407-017、CVE-2024-6387)情况的报送。攻击者可以利用该漏洞在无需认证的情况下,通...

Linux:lsof命令详解(linux lsof命令详解)

介绍欢迎来到这篇博客。在这篇博客中,我们将学习Unix/Linux系统上的lsof命令行工具。命令行工具是您使用CLI(命令行界面)而不是GUI(图形用户界面)运行的程序或工具。lsoflsof代表&...

幻隐说固态第一期:固态硬盘接口类别

前排声明所有信息来源于网络收集,如有错误请评论区指出更正。废话不多说,目前固态硬盘接口按速度由慢到快分有这几类:SATA、mSATA、SATAExpress、PCI-E、m.2、u.2。下面我们来...

新品轰炸 影驰SSD多款产品登Computex

分享泡泡网SSD固态硬盘频道6月6日台北电脑展作为全球第二、亚洲最大的3C/IT产业链专业展,吸引了众多IT厂商和全球各地媒体的热烈关注,全球存储新势力—影驰,也积极参与其中,为广大玩家朋友带来了...