百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Kettle(PDI)检测数据详解

bigegpt 2024-08-28 12:22 7 浏览

概述

在处理转换时,您可以通过可视化和与数据交互来获得有价值的见解。

您可以快速检查步骤的数据,减少构建转换时所需的迭代工作量。然后,您可以快速发布一个数据源,以便与您的团队或整个组织共享。

注意:根据您的操作系统,您可能需要升级您的Web浏览器来获得完整的体验。请在这里查看我们支持的组件列表(https://help.pentaho.com/Documentation/9.0/Setup/Components_Reference)。

示例

通过单击转换中的一个步骤开始检查数据。

弹出式检查栏出现在转换画布的顶部。弹出式检查栏显示所选步骤的名称,并包含两个用于数据检查的按钮:

Run and Inspect Data按钮:将转换运行到选定的步骤,然后让您检查数据。

Inspect Data按钮:允许您在转换运行后检查步骤的数据。

注意:此选项仅在转换之前未执行时才运行转换。

在转换运行之后,您的步骤数据的一个平面表格将显示出来,其中包括在Stream View中选择的所有可用字段。

此外,您可以开始检查数据使用这些其他方法:

  • 转换菜单:右键单击步骤并选择Inspect Data 或 Run and Inspect Data。
  • 预览数据的面板:选择Preview Data选项卡。单击位于Inspect Data面板右上方的Inspect Data按钮。
  • 操作菜单:选择一个步骤。从菜单栏中,Action>Inspect Data或者Action>Run and Inspect Data。
  • 键盘快捷键:选择一个步骤,然后使用键盘,执行以下操作:在Windows和Ubuntu中,按Shift+Ctrl+F9检查数据,或按Ctrl+F9运行和检查数据;在OS X中,按Shift+Command+F9检查数据,或按Command+F9运行并检查数据。

环境示例

下图以条形图的形式显示所选数据。

使用上面插图中编号的项目来引用下面中的检查环境部分。

1:标题栏

使用标题栏访问:

  • 被检查步骤的标题。
  • 被采样数据的行数,最大默认值为50,000行。
  • Publish data source按钮,用于创建稍后通过数据服务协作使用的数据源。
  • Return to transformation按钮,用于返回转换。

2:Stream View 或 Model View

在Stream View和Model View模式之间切换,以检查数据并基于采样的数据构建可视化。

  • 通过Stream View使用来自PDI数据流的数据类型和格式检查数据。
  • 通过Model View来使用维度模型检查数据,该维度模型可以通过注释流步骤进行调整。

注意:当不支持可视化模式时,将禁用不支持的视图。

2:搜索框

使用搜索框在可用字段列表中查找特定字段。这个特性在Stream View中特别有用,其中字段的顺序单独由转换决定。

2:可用字段面板

可用字段面板列出了被检查数据子集中的所有可用字段。字段类型自动分配作为步骤数据被指定,包括:

  • 默认字段,根据视图包含默认数据:Stream View数据不是数字,没有日期或时间戳,包括字符串,布尔和其他类型;Model View数据是不可度量的,并且没有标注为位置或时间层次结构。
  • 日期字段:其中包含日期数据(仅仅在Stream View)。
  • 数值字段:其中包含数值数据(仅仅在Stream View)。
  • 地理字段:其中包含位置数据(仅仅在Model View)。
  • 测量字段:其中包含定量数据(仅仅在Model View)。
  • 时间字段:其中包含时间数据(仅仅在Model View)。

从这个面板中,您可以选择要检查和排除其他字段的特定字段。选中的字段在其名称的左边显示一个蓝色的磁盘图标(选中的字段图标)。单击字段以选择或清除它,或将字段拖放到布局面板中。

  • 选择Clear All删除布局面板中的所有字段,清除过滤器面板中的所有过滤器,并清除画布。
  • 对于Stream View中的平面表,单击Select All以按照列出的顺序包括平面表中的所有字段。

3:可视化选择器

使用可视化选择器选择可视化类型。从下拉菜单中选择一个可视化将在画布上生成它。

4:Layout面板

显示所选可视化所需的可用拖放区域和关联字段类型。如果需要,单击标题以折叠此面板并展开Filters面板。

5:Filters面板

显示应用于可视化的所有筛选器。如果需要,单击标题以折叠此面板并展开Layout面板。要应用筛选器,可以将一个字段从可用字段面板拖放到Filters面板中。键盘快捷键可用于许多过滤器选项。此外,可以通过单击可视化应用一些特定的过滤操作。

6:画布

画布显示用于数据检查的可视化。

7:标签栏

使用标签栏来管理和导航标签:

  • 活动选项卡总是用蓝色高亮显示。
  • 通过复制现有的选项卡或添加新选项卡,为另一个数据可视化创建选项卡。
  • 重命名一个选项卡。
  • 滚动多个选项卡。
  • 删除你不再需要的标签。
  • 显示一个菜单(┇图标),其中包含所选选项卡的选项(复制、删除和重命名)。

使用可视化

数据可视化有两种模式:Stream View和Model View。您可以在这些模式之间切换,以基于取样集检查数据和形状可视化。Stream View生成用于实体关系建模并在关系数据库中执行的SQL查询。Model View构建在与流视图相同的表之上,在它们之上放置一个维度模型,并允许多维查询,在后台由MDX查询Mondrian引擎支持。

在数据检查期间提供的第一个视图是画布上的平表中的步骤数据Stream View。要减少选择的数据字段的数量,请在可用字段面板中单击字段名称的任何位置。名称左边的蓝色光盘图标消失,表明该字段不再被选中。若要更改可视化类型,请使用可视化选择器。如果您选择了一个需要模型的可视化,那么该模式将自动切换到Model View。否则,它将保留在Stream View中,如果可用,则可以手动选择Model View。

从可用字段面板中拖动您想要可视化的字段,并将它们拖放到Layout面板的拖放区域中。丢弃区域和它们接受的数据由可视化类型决定。若要使用其他可视化类型研究数据,请创建其他选项卡。

通过保留或排除字段、向下钻取可视化中的数据点(包括图表的图例或轴标签)以及其他筛选选项,可以进一步定制可视化。当您进行筛选时,筛选操作将应用于数据,Filters面板和可视化将根据所选的筛选器自动更新。

一旦您对您的步骤数据和模型感到满意,您就可以通过发布一个数据源来使内容可用于协作。

保存检查会话

您可以保存您的数据检查会话,以便稍后使用和共享。在您对生成的数据进行更改并退出应用程序之后,在转换画布中的步骤上将出现一个检查图标,以指示它有一个已记住的会话。当您保存时,此会话将被存储为一个Kettle转换(.ktr)文件。然后,可以通过重新打开保存的文件并重新检查步骤来恢复会话。

注意:当打开旧的保存文件格式时,它们将自动更新为当前格式。转换完成后,只能在当前版本的PDI中打开格式。

使用选项卡创建多个可视化

当您运行并检查数据、添加新选项卡或复制选项卡时,将创建选项卡。通过使用多个选项卡,您可以创建独特的可视化来检查差异、发现趋势并开发有关数据的洞察力。您可以添加一个新的选项卡来构建新的可视化,也可以复制一个现有的选项卡,以调查对数据进行小更改的结果。尽管一个标签最初是由它相关的可视化类型(表格,堆叠栏,地理地图等等)来表示的,你可以自定义这个指定的标签名。当更改选项卡的名称时,可以对多个选项卡使用相同的名称,但名称不能为空白。

执行以下步骤来更改选项卡名称:

  1. 双击选项卡(或从选项卡菜单中选择Rename)。
  2. 在文本框中键入新的选项卡名称,然后在文本框外单击(或按Enter)

注意:如果您想取消更改,请按Esc。

选项卡在会话之间保持打开状态,这样您就可以随时返回检查画布来调整转换,直到对结果满意为止。注意,当您重新打开已记住的检查会话时,选项卡可能会失效,例如,如果在转换或步骤中选择的一些字段被删除、重命名或与层次结构相关的更改。此外,当字段的元数据发生更改时,选项卡可能会失效。要重新验证这些选项卡,您可以从检查画布的可视化中清除无效字段,或者退出会话并在重新进入检查环境之前恢复已执行的更改。在平面表中,所有无效字段将自动删除。

合作发布

当您准备好让您的内容对其他人可用时,您可以将其作为数据源发布。数据源使用在步骤中自动创建的数据服务,其他工具也可以使用该服务。必须连接到存储库才能发布数据源。

1.单击标题栏右上方的“Publish data source”按钮,打开“Publish data source”窗口。

2.单击Get Started打开Publish Details窗口。在以下字段中输入数据源信息

Data Source Name:其他Pentaho应用程序在访问您的数据源时使用的名称。

Server:此字段的默认值是当前存储库。如果您已经通过Repository Manager创建了其他存储库连接,那么您可以选择它们。

URL:用于连接到服务器的基本URL字符串。

User Name:访问服务器所需的用户名。用户还必须具有发布权限。

Password:与提供的用户名关联的密码。

3.完成之后,单击Finish。

4.创建数据源后,将出现一个确认。数据源现在应该在服务器上可用。单击Close继续检查数据,或者单击View this in User Console以打开一个新的浏览器窗口并在Analyzer中使用数据源。

相关推荐

恢复软件6款汇总推荐,帮你减轻数据恢复压力!

在当今数字化生活中,数据丢失的风险如影随形。无论是误删文件、硬盘故障,还是遭遇病毒攻击,丢失的数据都可能给我们带来不小的麻烦。此时,一款优秀的数据恢复软件就成为了挽救数据的关键。今天,为大家汇总推荐...

中兴星星一号刷回官方原版recovery的教程

【搞科技教程】中兴星星一号的官方recovery也来说一下了,因为之前给大家分享过了第三方的recovery了,之前给大家分享的第三方recovery也是采用一键刷入的方式,如果细心的朋友会发现,之前...

新玩机工具箱,Uotan柚坛工具箱软件体验

以前的手机系统功能比较单调,各厂商的重视程度不一样,所以喜欢玩机的朋友会解锁手机系统的读写权限,来进行刷机或者ROOT之类的操作,让使用体验更好。随着现在的手机系统越来越保守,以及自身功能的增强,...

三星g906k刷recovery教程_三星g906k中文recovery下载

【搞科技教程】看到有一些机友在找三星g906k的第三方recovery,下面就来说一下详细的recovery的刷入方法了,因为手机只有有了第三方的recovery之后才可以刷第三方的root包和系统包...

中兴星星2号刷recovery教程_星星二号中文recovery下载

【搞科技教程】咱们的中兴星星2手机也就是中兴星星二号手机的第三方recovery已经出来了,并且是中文版的,有了这个recovery之后,咱们的手机就可以轻松的刷第三方的系统包了,如果没有第三方的re...

数据恢复软件有哪些值得推荐?这 6 款亲测好用的工具汇总请收好!

在数字生活中,数据丢失的阴霾常常突如其来。无论是误删工作文档、格式化重要磁盘,还是遭遇系统崩溃,都可能让我们陷入焦虑。关键时刻,一款得力的数据恢复软件便是那根“救命稻草”。今天,为大家精心汇总6...

中兴u956刷入recovery的教程(中兴e5900刷机)

【搞科技教程】这次主要来给大家说说中兴u956手机如何刷入第三方的recovery,因为第三方的recovery工具是咱们刷第三方rom包的基础,可是很我欠却不会刷,所以太这里来给大家整理了一下详细的...

联想A850+刷recovery教程 联想A850+第三方recovery下载

【搞科技教程】联想A850+的第三方recovery出来了,这个第三方的recovery是非常的重要的,比如咱们的手机要刷第三方的系统包的时候,都是需要用到这个第三方的recovery的,在网上也是有...

工具侠重大更新 智能机上刷机一条龙完成

工具侠是针对玩机的机油开发的一款工具,不管是发烧级别的粉丝,还是普通小白用户,都可以在工具侠上找到你喜欢的工具应用。这不,最新的工具侠2.0.16版本,更新了专门为小白准备的刷机助手工具,以及MTK超...

shift+delete删除的文件找回6种硬盘数据恢复工具

硬盘作为电脑的重要存储设备,如同一个巨大的数字仓库,承载着我们日常工作、学习和生活中的各种文件,从珍贵的照片、重要的工作文档到喜爱的视频、音乐等,都依赖硬盘来安全存放。但有时,我们可能会不小心用sh...

使用vscode+Deepseek 实现AI编程 基于Cline和continue

尊敬的诸位!我是一名专注于嵌入式开发的物联网工程师。关注我,持续分享最新物联网与AI资讯和开发实战。期望与您携手探寻物联网与AI的无尽可能。这两天deepseek3.0上线,据说编程能力比肩Cl...

详解如何使用VSCode搭建TypeScript环境(适合小白)

搭建Javascript环境因为TypeScript不能直接在浏览器上运行。它需要编译器来编译并生成JavaScript文件。所以需要首先安装好javascript环境,可以参考文章:https://...

使用VSCode来书写你的Jupyter Notebooks

现在你可以在VScode里面来书写你的notebook了,使用起来十分的方便。下面来给大家演示一下环境的搭建。首先需要安装一个jupyter的包,使用下面的命令安装:pip3install-ih...

使用VSCode模板提高Vue开发效率(vscode开发vue插件)

安装VSCode安装Vetur和VueHelper插件,安装完成后需要重启VScode。在扩展插件搜索框中找到如下Vetur和VueHelper两个插件,注意看图标。添加Vue模板打...

干货!VsCode接入DeepSeek实现AI编程的5种主流插件详解

AI大模型对编程的影响非常之大,可以说首当其冲,Cursor等对话式编程工具渐渐渗透到开发者的工作中,作为AI编程的明星产品,Cursor虽然好用,但是贵啊,所以咱们得找平替,最好免费那种。俗话说,不...