概述

在处理转换时，您可以通过可视化和与数据交互来获得有价值的见解。

您可以快速检查步骤的数据，减少构建转换时所需的迭代工作量。然后，您可以快速发布一个数据源，以便与您的团队或整个组织共享。

注意：根据您的操作系统，您可能需要升级您的Web浏览器来获得完整的体验。请在这里查看我们支持的组件列表（https://help.pentaho.com/Documentation/9.0/Setup/Components_Reference）。

示例

通过单击转换中的一个步骤开始检查数据。

弹出式检查栏出现在转换画布的顶部。弹出式检查栏显示所选步骤的名称，并包含两个用于数据检查的按钮：

Run and Inspect Data按钮：将转换运行到选定的步骤，然后让您检查数据。

Inspect Data按钮：允许您在转换运行后检查步骤的数据。

注意：此选项仅在转换之前未执行时才运行转换。

在转换运行之后，您的步骤数据的一个平面表格将显示出来，其中包括在Stream View中选择的所有可用字段。

此外，您可以开始检查数据使用这些其他方法：

转换菜单：右键单击步骤并选择Inspect Data 或 Run and Inspect Data。
预览数据的面板：选择Preview Data选项卡。单击位于Inspect Data面板右上方的Inspect Data按钮。
操作菜单：选择一个步骤。从菜单栏中，Action>Inspect Data或者Action>Run and Inspect Data。
键盘快捷键：选择一个步骤，然后使用键盘，执行以下操作：在Windows和Ubuntu中，按Shift+Ctrl+F9检查数据，或按Ctrl+F9运行和检查数据；在OS X中，按Shift+Command+F9检查数据，或按Command+F9运行并检查数据。

环境示例

下图以条形图的形式显示所选数据。

使用上面插图中编号的项目来引用下面中的检查环境部分。

1：标题栏

使用标题栏访问：

被检查步骤的标题。
被采样数据的行数，最大默认值为50,000行。
Publish data source按钮，用于创建稍后通过数据服务协作使用的数据源。
Return to transformation按钮，用于返回转换。

2：Stream View 或 Model View

在Stream View和Model View模式之间切换，以检查数据并基于采样的数据构建可视化。

通过Stream View使用来自PDI数据流的数据类型和格式检查数据。
通过Model View来使用维度模型检查数据，该维度模型可以通过注释流步骤进行调整。

注意：当不支持可视化模式时，将禁用不支持的视图。

2：搜索框

使用搜索框在可用字段列表中查找特定字段。这个特性在Stream View中特别有用，其中字段的顺序单独由转换决定。

2：可用字段面板

可用字段面板列出了被检查数据子集中的所有可用字段。字段类型自动分配作为步骤数据被指定，包括：

默认字段，根据视图包含默认数据：Stream View数据不是数字，没有日期或时间戳，包括字符串，布尔和其他类型；Model View数据是不可度量的，并且没有标注为位置或时间层次结构。

日期字段：其中包含日期数据（仅仅在Stream View）。

数值字段：其中包含数值数据（仅仅在Stream View）。

地理字段：其中包含位置数据（仅仅在Model View）。

测量字段：其中包含定量数据（仅仅在Model View）。

时间字段：其中包含时间数据（仅仅在Model View）。

从这个面板中，您可以选择要检查和排除其他字段的特定字段。选中的字段在其名称的左边显示一个蓝色的磁盘图标●(选中的字段图标)。单击字段以选择或清除它，或将字段拖放到布局面板中。

选择Clear All删除布局面板中的所有字段，清除过滤器面板中的所有过滤器，并清除画布。
对于Stream View中的平面表，单击Select All以按照列出的顺序包括平面表中的所有字段。

3：可视化选择器

使用可视化选择器选择可视化类型。从下拉菜单中选择一个可视化将在画布上生成它。

4：Layout面板

显示所选可视化所需的可用拖放区域和关联字段类型。如果需要，单击标题以折叠此面板并展开Filters面板。

5：Filters面板

显示应用于可视化的所有筛选器。如果需要，单击标题以折叠此面板并展开Layout面板。要应用筛选器，可以将一个字段从可用字段面板拖放到Filters面板中。键盘快捷键可用于许多过滤器选项。此外，可以通过单击可视化应用一些特定的过滤操作。

6：画布

画布显示用于数据检查的可视化。

7：标签栏

使用标签栏来管理和导航标签：

活动选项卡总是用蓝色高亮显示。
通过复制现有的选项卡或添加新选项卡，为另一个数据可视化创建选项卡。
重命名一个选项卡。
滚动多个选项卡。
删除你不再需要的标签。
显示一个菜单(┇图标)，其中包含所选选项卡的选项(复制、删除和重命名)。

使用可视化

数据可视化有两种模式：Stream View和Model View。您可以在这些模式之间切换，以基于取样集检查数据和形状可视化。Stream View生成用于实体关系建模并在关系数据库中执行的SQL查询。Model View构建在与流视图相同的表之上，在它们之上放置一个维度模型，并允许多维查询，在后台由MDX查询Mondrian引擎支持。

在数据检查期间提供的第一个视图是画布上的平表中的步骤数据Stream View。要减少选择的数据字段的数量，请在可用字段面板中单击字段名称的任何位置。名称左边的蓝色光盘图标消失，表明该字段不再被选中。若要更改可视化类型，请使用可视化选择器。如果您选择了一个需要模型的可视化，那么该模式将自动切换到Model View。否则，它将保留在Stream View中，如果可用，则可以手动选择Model View。

从可用字段面板中拖动您想要可视化的字段，并将它们拖放到Layout面板的拖放区域中。丢弃区域和它们接受的数据由可视化类型决定。若要使用其他可视化类型研究数据，请创建其他选项卡。

通过保留或排除字段、向下钻取可视化中的数据点(包括图表的图例或轴标签)以及其他筛选选项，可以进一步定制可视化。当您进行筛选时，筛选操作将应用于数据，Filters面板和可视化将根据所选的筛选器自动更新。

一旦您对您的步骤数据和模型感到满意，您就可以通过发布一个数据源来使内容可用于协作。

保存检查会话

您可以保存您的数据检查会话，以便稍后使用和共享。在您对生成的数据进行更改并退出应用程序之后，在转换画布中的步骤上将出现一个检查图标，以指示它有一个已记住的会话。当您保存时，此会话将被存储为一个Kettle转换(.ktr)文件。然后，可以通过重新打开保存的文件并重新检查步骤来恢复会话。

注意：当打开旧的保存文件格式时，它们将自动更新为当前格式。转换完成后，只能在当前版本的PDI中打开格式。

使用选项卡创建多个可视化

当您运行并检查数据、添加新选项卡或复制选项卡时，将创建选项卡。通过使用多个选项卡，您可以创建独特的可视化来检查差异、发现趋势并开发有关数据的洞察力。您可以添加一个新的选项卡来构建新的可视化，也可以复制一个现有的选项卡，以调查对数据进行小更改的结果。尽管一个标签最初是由它相关的可视化类型(表格，堆叠栏，地理地图等等)来表示的，你可以自定义这个指定的标签名。当更改选项卡的名称时，可以对多个选项卡使用相同的名称，但名称不能为空白。

执行以下步骤来更改选项卡名称：

双击选项卡(或从选项卡菜单中选择Rename)。
在文本框中键入新的选项卡名称，然后在文本框外单击(或按Enter)

注意：如果您想取消更改，请按Esc。

选项卡在会话之间保持打开状态，这样您就可以随时返回检查画布来调整转换，直到对结果满意为止。注意，当您重新打开已记住的检查会话时，选项卡可能会失效，例如，如果在转换或步骤中选择的一些字段被删除、重命名或与层次结构相关的更改。此外，当字段的元数据发生更改时，选项卡可能会失效。要重新验证这些选项卡，您可以从检查画布的可视化中清除无效字段，或者退出会话并在重新进入检查环境之前恢复已执行的更改。在平面表中，所有无效字段将自动删除。

合作发布

当您准备好让您的内容对其他人可用时，您可以将其作为数据源发布。数据源使用在步骤中自动创建的数据服务，其他工具也可以使用该服务。必须连接到存储库才能发布数据源。

1.单击标题栏右上方的“Publish data source”按钮，打开“Publish data source”窗口。

2.单击Get Started打开Publish Details窗口。在以下字段中输入数据源信息

Data Source Name：其他Pentaho应用程序在访问您的数据源时使用的名称。

Server：此字段的默认值是当前存储库。如果您已经通过Repository Manager创建了其他存储库连接，那么您可以选择它们。

URL：用于连接到服务器的基本URL字符串。

User Name：访问服务器所需的用户名。用户还必须具有发布权限。

Password：与提供的用户名关联的密码。

3.完成之后，单击Finish。

4.创建数据源后，将出现一个确认。数据源现在应该在服务器上可用。单击Close继续检查数据，或者单击View this in User Console以打开一个新的浏览器窗口并在Analyzer中使用数据源。

Kettle(PDI)检测数据详解

概述

示例

环境示例

使用可视化

保存检查会话

使用选项卡创建多个可视化

合作发布

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解