百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Kettle(PDI)检测数据详解

bigegpt 2024-08-28 12:22 3 浏览

概述

在处理转换时,您可以通过可视化和与数据交互来获得有价值的见解。

您可以快速检查步骤的数据,减少构建转换时所需的迭代工作量。然后,您可以快速发布一个数据源,以便与您的团队或整个组织共享。

注意:根据您的操作系统,您可能需要升级您的Web浏览器来获得完整的体验。请在这里查看我们支持的组件列表(https://help.pentaho.com/Documentation/9.0/Setup/Components_Reference)。

示例

通过单击转换中的一个步骤开始检查数据。

弹出式检查栏出现在转换画布的顶部。弹出式检查栏显示所选步骤的名称,并包含两个用于数据检查的按钮:

Run and Inspect Data按钮:将转换运行到选定的步骤,然后让您检查数据。

Inspect Data按钮:允许您在转换运行后检查步骤的数据。

注意:此选项仅在转换之前未执行时才运行转换。

在转换运行之后,您的步骤数据的一个平面表格将显示出来,其中包括在Stream View中选择的所有可用字段。

此外,您可以开始检查数据使用这些其他方法:

  • 转换菜单:右键单击步骤并选择Inspect Data 或 Run and Inspect Data。
  • 预览数据的面板:选择Preview Data选项卡。单击位于Inspect Data面板右上方的Inspect Data按钮。
  • 操作菜单:选择一个步骤。从菜单栏中,Action>Inspect Data或者Action>Run and Inspect Data。
  • 键盘快捷键:选择一个步骤,然后使用键盘,执行以下操作:在Windows和Ubuntu中,按Shift+Ctrl+F9检查数据,或按Ctrl+F9运行和检查数据;在OS X中,按Shift+Command+F9检查数据,或按Command+F9运行并检查数据。

环境示例

下图以条形图的形式显示所选数据。

使用上面插图中编号的项目来引用下面中的检查环境部分。

1:标题栏

使用标题栏访问:

  • 被检查步骤的标题。
  • 被采样数据的行数,最大默认值为50,000行。
  • Publish data source按钮,用于创建稍后通过数据服务协作使用的数据源。
  • Return to transformation按钮,用于返回转换。

2:Stream View 或 Model View

在Stream View和Model View模式之间切换,以检查数据并基于采样的数据构建可视化。

  • 通过Stream View使用来自PDI数据流的数据类型和格式检查数据。
  • 通过Model View来使用维度模型检查数据,该维度模型可以通过注释流步骤进行调整。

注意:当不支持可视化模式时,将禁用不支持的视图。

2:搜索框

使用搜索框在可用字段列表中查找特定字段。这个特性在Stream View中特别有用,其中字段的顺序单独由转换决定。

2:可用字段面板

可用字段面板列出了被检查数据子集中的所有可用字段。字段类型自动分配作为步骤数据被指定,包括:

  • 默认字段,根据视图包含默认数据:Stream View数据不是数字,没有日期或时间戳,包括字符串,布尔和其他类型;Model View数据是不可度量的,并且没有标注为位置或时间层次结构。
  • 日期字段:其中包含日期数据(仅仅在Stream View)。
  • 数值字段:其中包含数值数据(仅仅在Stream View)。
  • 地理字段:其中包含位置数据(仅仅在Model View)。
  • 测量字段:其中包含定量数据(仅仅在Model View)。
  • 时间字段:其中包含时间数据(仅仅在Model View)。

从这个面板中,您可以选择要检查和排除其他字段的特定字段。选中的字段在其名称的左边显示一个蓝色的磁盘图标(选中的字段图标)。单击字段以选择或清除它,或将字段拖放到布局面板中。

  • 选择Clear All删除布局面板中的所有字段,清除过滤器面板中的所有过滤器,并清除画布。
  • 对于Stream View中的平面表,单击Select All以按照列出的顺序包括平面表中的所有字段。

3:可视化选择器

使用可视化选择器选择可视化类型。从下拉菜单中选择一个可视化将在画布上生成它。

4:Layout面板

显示所选可视化所需的可用拖放区域和关联字段类型。如果需要,单击标题以折叠此面板并展开Filters面板。

5:Filters面板

显示应用于可视化的所有筛选器。如果需要,单击标题以折叠此面板并展开Layout面板。要应用筛选器,可以将一个字段从可用字段面板拖放到Filters面板中。键盘快捷键可用于许多过滤器选项。此外,可以通过单击可视化应用一些特定的过滤操作。

6:画布

画布显示用于数据检查的可视化。

7:标签栏

使用标签栏来管理和导航标签:

  • 活动选项卡总是用蓝色高亮显示。
  • 通过复制现有的选项卡或添加新选项卡,为另一个数据可视化创建选项卡。
  • 重命名一个选项卡。
  • 滚动多个选项卡。
  • 删除你不再需要的标签。
  • 显示一个菜单(┇图标),其中包含所选选项卡的选项(复制、删除和重命名)。

使用可视化

数据可视化有两种模式:Stream View和Model View。您可以在这些模式之间切换,以基于取样集检查数据和形状可视化。Stream View生成用于实体关系建模并在关系数据库中执行的SQL查询。Model View构建在与流视图相同的表之上,在它们之上放置一个维度模型,并允许多维查询,在后台由MDX查询Mondrian引擎支持。

在数据检查期间提供的第一个视图是画布上的平表中的步骤数据Stream View。要减少选择的数据字段的数量,请在可用字段面板中单击字段名称的任何位置。名称左边的蓝色光盘图标消失,表明该字段不再被选中。若要更改可视化类型,请使用可视化选择器。如果您选择了一个需要模型的可视化,那么该模式将自动切换到Model View。否则,它将保留在Stream View中,如果可用,则可以手动选择Model View。

从可用字段面板中拖动您想要可视化的字段,并将它们拖放到Layout面板的拖放区域中。丢弃区域和它们接受的数据由可视化类型决定。若要使用其他可视化类型研究数据,请创建其他选项卡。

通过保留或排除字段、向下钻取可视化中的数据点(包括图表的图例或轴标签)以及其他筛选选项,可以进一步定制可视化。当您进行筛选时,筛选操作将应用于数据,Filters面板和可视化将根据所选的筛选器自动更新。

一旦您对您的步骤数据和模型感到满意,您就可以通过发布一个数据源来使内容可用于协作。

保存检查会话

您可以保存您的数据检查会话,以便稍后使用和共享。在您对生成的数据进行更改并退出应用程序之后,在转换画布中的步骤上将出现一个检查图标,以指示它有一个已记住的会话。当您保存时,此会话将被存储为一个Kettle转换(.ktr)文件。然后,可以通过重新打开保存的文件并重新检查步骤来恢复会话。

注意:当打开旧的保存文件格式时,它们将自动更新为当前格式。转换完成后,只能在当前版本的PDI中打开格式。

使用选项卡创建多个可视化

当您运行并检查数据、添加新选项卡或复制选项卡时,将创建选项卡。通过使用多个选项卡,您可以创建独特的可视化来检查差异、发现趋势并开发有关数据的洞察力。您可以添加一个新的选项卡来构建新的可视化,也可以复制一个现有的选项卡,以调查对数据进行小更改的结果。尽管一个标签最初是由它相关的可视化类型(表格,堆叠栏,地理地图等等)来表示的,你可以自定义这个指定的标签名。当更改选项卡的名称时,可以对多个选项卡使用相同的名称,但名称不能为空白。

执行以下步骤来更改选项卡名称:

  1. 双击选项卡(或从选项卡菜单中选择Rename)。
  2. 在文本框中键入新的选项卡名称,然后在文本框外单击(或按Enter)

注意:如果您想取消更改,请按Esc。

选项卡在会话之间保持打开状态,这样您就可以随时返回检查画布来调整转换,直到对结果满意为止。注意,当您重新打开已记住的检查会话时,选项卡可能会失效,例如,如果在转换或步骤中选择的一些字段被删除、重命名或与层次结构相关的更改。此外,当字段的元数据发生更改时,选项卡可能会失效。要重新验证这些选项卡,您可以从检查画布的可视化中清除无效字段,或者退出会话并在重新进入检查环境之前恢复已执行的更改。在平面表中,所有无效字段将自动删除。

合作发布

当您准备好让您的内容对其他人可用时,您可以将其作为数据源发布。数据源使用在步骤中自动创建的数据服务,其他工具也可以使用该服务。必须连接到存储库才能发布数据源。

1.单击标题栏右上方的“Publish data source”按钮,打开“Publish data source”窗口。

2.单击Get Started打开Publish Details窗口。在以下字段中输入数据源信息

Data Source Name:其他Pentaho应用程序在访问您的数据源时使用的名称。

Server:此字段的默认值是当前存储库。如果您已经通过Repository Manager创建了其他存储库连接,那么您可以选择它们。

URL:用于连接到服务器的基本URL字符串。

User Name:访问服务器所需的用户名。用户还必须具有发布权限。

Password:与提供的用户名关联的密码。

3.完成之后,单击Finish。

4.创建数据源后,将出现一个确认。数据源现在应该在服务器上可用。单击Close继续检查数据,或者单击View this in User Console以打开一个新的浏览器窗口并在Analyzer中使用数据源。

相关推荐

得物可观测平台架构升级:基于GreptimeDB的全新监控体系实践

一、摘要在前端可观测分析场景中,需要实时观测并处理多地、多环境的运行情况,以保障Web应用和移动端的可用性与性能。传统方案往往依赖代理Agent→消息队列→流计算引擎→OLAP存储...

warm-flow新春版:网关直连和流程图重构

本期主要解决了网关直连和流程图重构,可以自此之后可支持各种复杂的网关混合、多网关直连使用。-新增Ruoyi-Vue-Plus优秀开源集成案例更新日志[feat]导入、导出和保存等新增json格式支持...

扣子空间体验报告

在数字化时代,智能工具的应用正不断拓展到我们工作和生活的各个角落。从任务规划到项目执行,再到任务管理,作者深入探讨了这款工具在不同场景下的表现和潜力。通过具体的应用实例,文章展示了扣子空间如何帮助用户...

spider-flow:开源的可视化方式定义爬虫方案

spider-flow简介spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。spider-flow特性支持css选择器、正则提取支持JSON/XML格式...

solon-flow 你好世界!

solon-flow是一个基础级的流处理引擎(可用于业务规则、决策处理、计算编排、流程审批等......)。提供有“开放式”驱动定制支持,像jdbc有mysql或pgsql等驱动,可...

新一代开源爬虫平台:SpiderFlow

SpiderFlow:新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。-精选真开源,释放新价值。概览Spider-Flow是一个开源的、面向所有用户的Web端爬虫构建平台,它使用Ja...

通过 SQL 训练机器学习模型的引擎

关注薪资待遇的同学应该知道,机器学习相关的岗位工资普遍偏高啊。同时随着各种通用机器学习框架的出现,机器学习的门槛也在逐渐降低,训练一个简单的机器学习模型变得不那么难。但是不得不承认对于一些数据相关的工...

鼠须管输入法rime for Mac

鼠须管输入法forMac是一款十分新颖的跨平台输入法软件,全名是中州韵输入法引擎,鼠须管输入法mac版不仅仅是一个输入法,而是一个输入法算法框架。Rime的基础架构十分精良,一套算法支持了拼音、...

Go语言 1.20 版本正式发布:新版详细介绍

Go1.20简介最新的Go版本1.20在Go1.19发布六个月后发布。它的大部分更改都在工具链、运行时和库的实现中。一如既往,该版本保持了Go1的兼容性承诺。我们期望几乎所...

iOS 10平台SpriteKit新特性之Tile Maps(上)

简介苹果公司在WWDC2016大会上向人们展示了一大批新的好东西。其中之一就是SpriteKitTileEditor。这款工具易于上手,而且看起来速度特别快。在本教程中,你将了解关于TileE...

程序员简历例句—范例Java、Python、C++模板

个人简介通用简介:有良好的代码风格,通过添加注释提高代码可读性,注重代码质量,研读过XXX,XXX等多个开源项目源码从而学习增强代码的健壮性与扩展性。具备良好的代码编程习惯及文档编写能力,参与多个高...

Telerik UI for iOS Q3 2015正式发布

近日,TelerikUIforiOS正式发布了Q32015。新版本新增对XCode7、Swift2.0和iOS9的支持,同时还新增了对数轴、不连续的日期时间轴等;改进TKDataPoin...

ios使用ijkplayer+nginx进行视频直播

上两节,我们讲到使用nginx和ngixn的rtmp模块搭建直播的服务器,接着我们讲解了在Android使用ijkplayer来作为我们的视频直播播放器,整个过程中,需要注意的就是ijlplayer编...

IOS技术分享|iOS快速生成开发文档(一)

前言对于开发人员而言,文档的作用不言而喻。文档不仅可以提高软件开发效率,还能便于以后的软件开发、使用和维护。本文主要讲述Objective-C快速生成开发文档工具appledoc。简介apple...

macOS下配置VS Code C++开发环境

本文介绍在苹果macOS操作系统下,配置VisualStudioCode的C/C++开发环境的过程,本环境使用Clang/LLVM编译器和调试器。一、前置条件本文默认前置条件是,您的开发设备已...