概述
在处理转换时,您可以通过可视化和与数据交互来获得有价值的见解。
您可以快速检查步骤的数据,减少构建转换时所需的迭代工作量。然后,您可以快速发布一个数据源,以便与您的团队或整个组织共享。
注意:根据您的操作系统,您可能需要升级您的Web浏览器来获得完整的体验。请在这里查看我们支持的组件列表(https://help.pentaho.com/Documentation/9.0/Setup/Components_Reference)。
示例
通过单击转换中的一个步骤开始检查数据。
弹出式检查栏出现在转换画布的顶部。弹出式检查栏显示所选步骤的名称,并包含两个用于数据检查的按钮:
Run and Inspect Data按钮:将转换运行到选定的步骤,然后让您检查数据。
Inspect Data按钮:允许您在转换运行后检查步骤的数据。
注意:此选项仅在转换之前未执行时才运行转换。
在转换运行之后,您的步骤数据的一个平面表格将显示出来,其中包括在Stream View中选择的所有可用字段。
此外,您可以开始检查数据使用这些其他方法:
- 转换菜单:右键单击步骤并选择Inspect Data 或 Run and Inspect Data。
- 预览数据的面板:选择Preview Data选项卡。单击位于Inspect Data面板右上方的Inspect Data按钮。
- 操作菜单:选择一个步骤。从菜单栏中,Action>Inspect Data或者Action>Run and Inspect Data。
- 键盘快捷键:选择一个步骤,然后使用键盘,执行以下操作:在Windows和Ubuntu中,按Shift+Ctrl+F9检查数据,或按Ctrl+F9运行和检查数据;在OS X中,按Shift+Command+F9检查数据,或按Command+F9运行并检查数据。
环境示例
下图以条形图的形式显示所选数据。
使用上面插图中编号的项目来引用下面中的检查环境部分。
1:标题栏
使用标题栏访问:
- 被检查步骤的标题。
- 被采样数据的行数,最大默认值为50,000行。
- Publish data source按钮,用于创建稍后通过数据服务协作使用的数据源。
- Return to transformation按钮,用于返回转换。
2:Stream View 或 Model View
在Stream View和Model View模式之间切换,以检查数据并基于采样的数据构建可视化。
- 通过Stream View使用来自PDI数据流的数据类型和格式检查数据。
- 通过Model View来使用维度模型检查数据,该维度模型可以通过注释流步骤进行调整。
注意:当不支持可视化模式时,将禁用不支持的视图。
2:搜索框
使用搜索框在可用字段列表中查找特定字段。这个特性在Stream View中特别有用,其中字段的顺序单独由转换决定。
2:可用字段面板
可用字段面板列出了被检查数据子集中的所有可用字段。字段类型自动分配作为步骤数据被指定,包括:
- 默认字段,根据视图包含默认数据:Stream View数据不是数字,没有日期或时间戳,包括字符串,布尔和其他类型;Model View数据是不可度量的,并且没有标注为位置或时间层次结构。
- 日期字段:其中包含日期数据(仅仅在Stream View)。
- 数值字段:其中包含数值数据(仅仅在Stream View)。
- 地理字段:其中包含位置数据(仅仅在Model View)。
- 测量字段:其中包含定量数据(仅仅在Model View)。
- 时间字段:其中包含时间数据(仅仅在Model View)。
从这个面板中,您可以选择要检查和排除其他字段的特定字段。选中的字段在其名称的左边显示一个蓝色的磁盘图标●(选中的字段图标)。单击字段以选择或清除它,或将字段拖放到布局面板中。
- 选择Clear All删除布局面板中的所有字段,清除过滤器面板中的所有过滤器,并清除画布。
- 对于Stream View中的平面表,单击Select All以按照列出的顺序包括平面表中的所有字段。
3:可视化选择器
使用可视化选择器选择可视化类型。从下拉菜单中选择一个可视化将在画布上生成它。
4:Layout面板
显示所选可视化所需的可用拖放区域和关联字段类型。如果需要,单击标题以折叠此面板并展开Filters面板。
5:Filters面板
显示应用于可视化的所有筛选器。如果需要,单击标题以折叠此面板并展开Layout面板。要应用筛选器,可以将一个字段从可用字段面板拖放到Filters面板中。键盘快捷键可用于许多过滤器选项。此外,可以通过单击可视化应用一些特定的过滤操作。
6:画布
画布显示用于数据检查的可视化。
7:标签栏
使用标签栏来管理和导航标签:
- 活动选项卡总是用蓝色高亮显示。
- 通过复制现有的选项卡或添加新选项卡,为另一个数据可视化创建选项卡。
- 重命名一个选项卡。
- 滚动多个选项卡。
- 删除你不再需要的标签。
- 显示一个菜单(┇图标),其中包含所选选项卡的选项(复制、删除和重命名)。
使用可视化
数据可视化有两种模式:Stream View和Model View。您可以在这些模式之间切换,以基于取样集检查数据和形状可视化。Stream View生成用于实体关系建模并在关系数据库中执行的SQL查询。Model View构建在与流视图相同的表之上,在它们之上放置一个维度模型,并允许多维查询,在后台由MDX查询Mondrian引擎支持。
在数据检查期间提供的第一个视图是画布上的平表中的步骤数据Stream View。要减少选择的数据字段的数量,请在可用字段面板中单击字段名称的任何位置。名称左边的蓝色光盘图标消失,表明该字段不再被选中。若要更改可视化类型,请使用可视化选择器。如果您选择了一个需要模型的可视化,那么该模式将自动切换到Model View。否则,它将保留在Stream View中,如果可用,则可以手动选择Model View。
从可用字段面板中拖动您想要可视化的字段,并将它们拖放到Layout面板的拖放区域中。丢弃区域和它们接受的数据由可视化类型决定。若要使用其他可视化类型研究数据,请创建其他选项卡。
通过保留或排除字段、向下钻取可视化中的数据点(包括图表的图例或轴标签)以及其他筛选选项,可以进一步定制可视化。当您进行筛选时,筛选操作将应用于数据,Filters面板和可视化将根据所选的筛选器自动更新。
一旦您对您的步骤数据和模型感到满意,您就可以通过发布一个数据源来使内容可用于协作。
保存检查会话
您可以保存您的数据检查会话,以便稍后使用和共享。在您对生成的数据进行更改并退出应用程序之后,在转换画布中的步骤上将出现一个检查图标,以指示它有一个已记住的会话。当您保存时,此会话将被存储为一个Kettle转换(.ktr)文件。然后,可以通过重新打开保存的文件并重新检查步骤来恢复会话。
注意:当打开旧的保存文件格式时,它们将自动更新为当前格式。转换完成后,只能在当前版本的PDI中打开格式。
使用选项卡创建多个可视化
当您运行并检查数据、添加新选项卡或复制选项卡时,将创建选项卡。通过使用多个选项卡,您可以创建独特的可视化来检查差异、发现趋势并开发有关数据的洞察力。您可以添加一个新的选项卡来构建新的可视化,也可以复制一个现有的选项卡,以调查对数据进行小更改的结果。尽管一个标签最初是由它相关的可视化类型(表格,堆叠栏,地理地图等等)来表示的,你可以自定义这个指定的标签名。当更改选项卡的名称时,可以对多个选项卡使用相同的名称,但名称不能为空白。
执行以下步骤来更改选项卡名称:
- 双击选项卡(或从选项卡菜单中选择Rename)。
- 在文本框中键入新的选项卡名称,然后在文本框外单击(或按Enter)
注意:如果您想取消更改,请按Esc。
选项卡在会话之间保持打开状态,这样您就可以随时返回检查画布来调整转换,直到对结果满意为止。注意,当您重新打开已记住的检查会话时,选项卡可能会失效,例如,如果在转换或步骤中选择的一些字段被删除、重命名或与层次结构相关的更改。此外,当字段的元数据发生更改时,选项卡可能会失效。要重新验证这些选项卡,您可以从检查画布的可视化中清除无效字段,或者退出会话并在重新进入检查环境之前恢复已执行的更改。在平面表中,所有无效字段将自动删除。
合作发布
当您准备好让您的内容对其他人可用时,您可以将其作为数据源发布。数据源使用在步骤中自动创建的数据服务,其他工具也可以使用该服务。必须连接到存储库才能发布数据源。
1.单击标题栏右上方的“Publish data source”按钮,打开“Publish data source”窗口。
2.单击Get Started打开Publish Details窗口。在以下字段中输入数据源信息
Data Source Name:其他Pentaho应用程序在访问您的数据源时使用的名称。
Server:此字段的默认值是当前存储库。如果您已经通过Repository Manager创建了其他存储库连接,那么您可以选择它们。
URL:用于连接到服务器的基本URL字符串。
User Name:访问服务器所需的用户名。用户还必须具有发布权限。
Password:与提供的用户名关联的密码。
3.完成之后,单击Finish。
4.创建数据源后,将出现一个确认。数据源现在应该在服务器上可用。单击Close继续检查数据,或者单击View this in User Console以打开一个新的浏览器窗口并在Analyzer中使用数据源。