百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

0203-Navigator的使用

bigegpt 2024-09-14 00:14 8 浏览

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

Fayson的github:https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1.文档编写目的


在前面Fayson介绍了《

Cloudera Navigator介绍与安装

》,本篇文章主要介绍Navigator的四大核心功能,元数据搜索、数据溯源、审计以及数据生命周期管理功能。当然Navigator还一个重要的功能就是进行数据加密,因为涉及内容较多,也稍微复杂一些,所以本文这里先不介绍,Fayson会在后面的文章单独进行说明。

  • 内容概述

1.元数据搜索

2.数据溯源

3.审计

4.数据生命周期管理

  • 测试环境

1.CM和CDH版本为5.13.1

2.Navigator版本为2.12

2.元数据搜索


1.使用管理员登录Cloudera Navigator

如上图所示显示的界面即为元数据搜索功能界面。

2.根据输入的检索条件可以检索出所有涉及的内容,根据Source Type进行展示

通过关键字sqoop_hosts检索出Hive和HDFS相关的数据信息。

3.在搜索栏输入“sqoop_hosts”,根据左边的过滤条件,过滤数据源为Hive且类型为Table类型的数据

可以看到Navigator支持元数据模糊检索,支持元数据类型,类型、所属用户等条件过滤,检索出来的数据显示有数据文件的HDFS路径、所属用户、创建时间及数据源等信息。

4.查看元数据详细信息

5.进入元数据详细界面,为数据添加标签(Tag)

这里我们为元数据添加标签后,可以在元数据检索界面通过搜索“my_sqoop_hosts”标签来查找我们的元数据信息

6.修改元数据名称

修改元数据名称后,可以根据修改后的“hosts_rename”名称来搜索我们的元数据信息

通过检索出来的结果,能看到修改后的元数据名称中会有一个“Original Name”字段标识原始元数据的名称。修改的元数据名称还原后则不能检索到sqoop_hosts元数据信息

使用默认的“sqoop_hosts”检索出来的数据

我们可以看到是没有“Original Name”标识字段。

3.数据溯源管理


这里我们使用Sqoop抽取MySQL数据到HDFS,然后将创建Hive的sqoop_hosts外部表,再将sqoop_hosts表转化为hosts_paquet表,通过这系列流程查看Navigator是如何展示我们数据的流向。

1.在命令行执行脚本使用Sqoop命令通过MySQL数据库中指定表创建Hive表

[root@ip-172-31-16-68 gzshell]# vim create_hivetable.sh 
#!/bin/sh 
host='ip-172-31-16-68.ap-southeast-1.compute.internal'
database='cm'
user='root'
password='123456'
mysqlTable='HOSTS'
hiveDB='default'
hiveTable='sqoop_hosts'
sqoop create-hive-table \
--connect jdbc:mysql://${host}:3306/${database} --username ${user} --password ${password} \
--table ${mysqlTable} \
--hive-table ${hiveDB}.${hiveTable} \
--hive-overwrite

(可左右滑动)

2.在命令行执行脚本将MySQL表数据抽取到Hive的sqoop_hosts表中

[root@ip-172-31-16-68 gzshell]# vim import_hivetable.sh 
#!/bin/sh
host='ip-172-31-16-68.ap-southeast-1.compute.internal'
database='cm'
user='root'
password='123456'
mysqlTable='HOSTS'
hiveDB='default'
hiveTable='sqoop_hosts'
tmpDir='/user/hive/warehouse/'${hiveDB}'.db/'${hiveTable}
sqoop import --connect jdbc:mysql://${host}:3306/${database} --username ${user} --password ${password} \
--table $mysqlTable \
--hive-import --hive-table ${hiveDB}.${hiveTable} --target-dir ${tmpDir} --delete-target-dir \
--hive-overwrite \
--null-string '\\N' --null-non-string '\\N'

(可左右滑动)

3.在Hue中执行SQL命令创建hosts_parquet表

create table hosts_parquet like sqoop_hosts stored as parquetfile;

(可左右滑动)

4.在命令行执行脚本将HDFS数据抽取到MySQL数据库中的test_hosts表

[root@ip-172-31-16-68 gzshell]# vim export_hivetable.sh 
#!/bin/sh
###create table test_hosts like HOSTS;
host='ip-172-31-16-68.ap-southeast-1.compute.internal'
database='cm'
user='root'
password='123456'
mysqlTable='test_hosts'
hiveDB='default'
exportDir='/user/hive/warehouse/sqoop_hosts'
sqoop export --connect jdbc:mysql://${host}:3306/${database} \
--username ${user} \
--password ${password} \
--table ${mysqlTable} \
--export-dir ${exportDir} \
--input-fields-terminated-by '\01' \
-m 1

(可左右滑动)

5.完成以上的数据操作流程后,登录Navigator查看数据血缘分析

进入元数据详细界面

点击“Lineage”菜单,进入数据血缘分析界面

点击图中标注的“+”可以看到sqoop_hosts表中所有字段与hosts_parquet表中字段为一一对应

点击右侧菜单“Operations”,可以看到详细的跟踪到元数据的源头及目的地

点击每一个节点可以查看到当前节点的详细描述

可以精确到每个字段的数据流向

4.审计功能


1.我们命令行使用fayson用户访问有权限的HDFS目录

[root@ip-172-31-16-68 ~]# hadoop fs -ls /user/hive/warehouse

(可左右滑动)

2.登录Cloudera Manager Navigator进入“Audits”功能,查看fayson审计功能

添加筛选条件

点击“Apply”,可以看到我们操作HDFS的/user/hive/warehouse的审计日志

3.使用fayson用户查看无访问权限的HDFS目录

[root@ip-172-31-16-68 ~]# hadoop fs -ls /user/hdfs

(可左右滑动)

4.查看Cloudera Manager Navigator的审计日志

添加筛选条件

点击“Apply”,查看审计日志,可以看到有记录用户无权限访问该目录的日志

5.使用fayson用户登录Hue进行SQL操作,访问有权限的sqoop_hosts表

登录Navigator查看审计日志

6.操作无权限访问的hosts_parquet表

登录Navigator查看审计日志

7.同样Cloudera Manager Navigator可以对系统登录等操作进行审计,这里以Hue为例

5.数据生命周期管理


1.登录Navigator平台,点击“Policies”进入数据生命周期管理界面

2.查看“Search Query”查询条件

点击“Show full query”

3.点击“New Policy”创建一个自动分类标签的策略

点击“Save”保存策略

查看自动分类标签策略运行情况

通过元数据检索查看我们创建的策略是否执行成功

成功为我们的/user/hive/warehouse/sqoop_hosts的HDFS目录生成了my_sqoop_hosts标签。

4.创建自动归档策略

将HDFS的/wc目录移至/wc_archive目录

点击“Save”保存归档策略

查看归档策略运行状态

查看数据是否归档,在命令行查看HDFS的/wc目录

如上截图发现,HDFS的/wc目录已不存在,只存在/wc_archive,与我们创建的归档策略一致。

6.总结


  • Navigator提供了完整的元数据检索功能。可以通过搜索表名,文件名等都可以搜索出相关所有涉及的内容,包括文件路径,创建时间,创建人等。可以根据数据来源组件,操作,表等分类进行查询。可以为数据集添加标签(tag) ,支持基于标签的搜索。
  • Navigator提供了完成了集群审计功能(含数据操作,权限控制、登录等)
  • Navigator提供完整的数据血缘分析,通过可视化界面方便的查看数据详细的进入HDFS到流出的一系列过程。
  • Navigator提供创建策略的方式来管理数据的生命周期,如为数据添加Tag、归档数据等策略。

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

相关推荐

或者这些Joplin插件也可以帮助你的笔记应用再一次强大

写在前面距离上次分享《搭建私有全平台多端同步笔记,群晖NAS自建JoplinServer服务》已过去一段时间,大家是否开始使用起来了呢?如果你和我一样已经使用过Joplin有一段时间了,那或许你也会...

Three.JS教程4 threejs中的辅助类

一、辅助类简介Three.js提供了一些辅助类(Helpers)以帮助我们更容易地调试、可视化场景中的元素。ArrowHelepr:创建箭头辅助器;AxisHelper:创建坐标轴辅助器;BoxH...

第2章 还记得点、线、面吗(二)(第二章还能敲钟吗)

glbgltf模型(webvrmodel)-gltf模型下载定制,glb模型下载定制,三维项目电商网站在线三维展示,usdz格式,vr模型网,网页VR模型下载,三维模型下载,webgl网页模型下载我...

如何检查Linux系统硬件信息?从CPU到显卡,一网打尽!

你可能会问:“我为什么要关心硬件信息?”答案很简单:硬件是Linux系统的根基,了解它可以帮你解决很多实际问题。比如:性能调优:知道CPU核心数和内存大小,才能更好地调整程序运行参数。故障排查:系统卡...

SpriteJS:图形库造轮子的那些事儿

从2017年到2020年,我花了大约4年的时间,从零到一,实现了一个可切换WebGL和Canvas2D渲染的,跨平台支持浏览器、SSR、小程序,基于DOM结构和支持响应式的,高...

平时积累的FPGA知识点(6)(fpga经典应用100例)

平时在FPGA群聊等积累的FPGA知识点,第六期:1万兆网接口,发三十万包,会出现掉几包的情况,为什么?原因:没做时钟约束,万兆网接口的实现,本质上都是高速serdes,用IP的话,IP会自带约束。...

芯片逻辑调度框架设计 都需要那些那些软件工具

设计芯片逻辑调度框架通常需要使用以下软件工具:1.逻辑设计工具:例如Vivado、Quartus、SynopsysDesignCompiler等,用于设计和实现逻辑电路。2.仿真工具:例如Mo...

ZYNQ与DSP之间EMIF16通信(正点原子领航者zynq之fpga开发指南v3)

本文主要介绍说明XQ6657Z35-EVM高速数据处理评估板ZYNQ与DSP之间EMIF16通信的功能、使用步骤以及各个例程的运行效果。[基于TIKeyStone架构C6000系列TMS320C6...

好课推荐:从零开始大战FPGA(从零开始的冒险4399)

从零开始大战FPGA引子:本课程为“从零开始大战FPGA”系列课程的基础篇。课程通俗易懂、逻辑性强、示例丰富,课程中尤其强调在设计过程中对“时序”和“逻辑”的把控,以及硬件描述语言与硬件电路相对应的“...

业界第一个真正意义上开源100 Gbps NIC Corundum介绍

来源:内容由「网络交换FPGA」编译自「FCCM2020」,谢谢。FCCM2020在5月4日开始线上举行,对外免费。我们有幸聆听了其中一个有关100G开源NIC的介绍,我们对该文章进行了翻译,并对其中...

高层次综合:解锁FPGA广阔应用的最后一块拼图

我们为什么需要高层次综合高层次综合(High-levelSynthesis)简称HLS,指的是将高层次语言描述的逻辑结构,自动转换成低抽象级语言描述的电路模型的过程。所谓的高层次语言,包括C、C++...

Xilinx文档编号及其内容索引(部分)

Xilinx文档的数量非常多。即使全职从事FPGA相关工作,没有几年时间不可能对器件特性、应用、注意事项等等有较为全面的了解。本文记录了我自使用Xilinx系列FPGA以来或精读、或翻阅、或查询过的文...

Xilinx Vivado联合Modelsim软件仿真

引言:Xilinx公司Vivado开发软件自带仿真工具,可以实现一般性能的FPGA软件仿真测试,其测试执行效率以及性能都不如第三方专用仿真软件Modelsim强。本文我们介绍下如何进行Vivado20...

体育动画直播是怎么做出来的?从数据到虚拟赛场的科技魔法!

你是否见过这样的比赛直播?没有真实球员,却能看梅西带球突破?足球比赛变成动画版,但数据100%真实?电竞比赛用虚拟形象直播,选手操作实时同步?这就是体育动画直播——一种融合实时数据、游戏引擎和AI的...

Dialogue between CPC and political parties of neighboring countries held in Beijing

BEIJING,May26(Xinhua)--TheCommunistPartyofChina(CPC)inDialoguewithPoliticalPartiesof...