手把手教你做——助睿实验作业1-订单利润分流数据加工(零代码ETL + 多表关联 + 条件分流),附完整操作步骤
一、实验背景
1.1实验目的
本次实验的目的是为了熟悉助睿零代码数据集成平台(ETL平台)的基本使用方法,具体包括:
- 新建转换、添加组件、执行转换等基本操作流程
- 熟悉表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法
- 理解多表关联、数据过滤与分流处理的ETL设计思路
通过本次实验,能够独立使用助睿平台完成常见的数据加工任务,为后续更复杂的数据处理场景打下基础。
1.2 实验环境
- 零代码实验平台:本次实验使用助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,适用于数据分析教学与企业数据加工场景。产品官网为 https://www.uniplore.com,本次实验的访问地址为 https://lab.guilian.cn/。
- 数据库:MySQL(含订单数据和产品信息表)
- 数据准备:订单_详细订单表(business_analysis.order_detail)、订单_产品信息表(business_analysis.product)
1.3 业务场景
在现实的企业经营分析中,经常需要将多张表关联起来计算利润,并按利润的盈亏情况对订单进行分类存储。本次实验以订单利润分流为例,通过零代码拖拽方式完成这一数据处理任务。
1.4 数据加工流程
将订单_详细订单表与订单_产品信息表进行左外连接(LEFT OUTER),移除重复字段,按利润是否大于等于零进行分流,最后分别输出盈利订单和亏损订单这两个Excel文件。
二、实验步骤
2.1登录实验平台,打开实验项目
登录贵兰在线平台,在我的课程学习界面中,点击“实验课1:助睿ETL入门实验 “。随后再点击课程实训说明中的“大数据实训平台”,即可前往实验地址https://lab.guilan.cn/
2.2创建实验项目
在新建项目的时候,可以先创建一个个人团队,点击”团队管理“,在窗口上方再点击”新建团队“,输入相应的团队名称和团队描述,最后点击确定即可成功创建一个个人团队。如下图所示:
再切换至”我的项目“窗口,在窗口的上方将”所属团队“选择为刚创建的个人团队,接着点击左上角的“新建项目”,再输入“项目名称”,最后点击“确认”即可在刚创建的个人团队中新建项目了。如下图所示:已经成功创建了一个实验项目。
2.3在已创建的项目中同步数据源
点击已经创建的实验项目的右上角的“…”,选择“打开项目”,如下图:
随后,在弹出的新窗口中再点击左上角的元数据,在其下方有个关系数据库,鼠标右键点击后选择同步数据源,之后再刷新一下,即可看到线上公共数据源(Readonly)。如下图所示:即表示成功。
2.4新建转换流
从元数据切换到资源库,右键点击根目录,再点击“新建转换流”,输入相应的转换流名称即可成功创建。如下图所示:已成功创建一个名为”订单利润分流处理“的转换流。
2.5添加组件
- 添加“表输入”组件:在搜索输入框中输入”表输入”,即可查询到“表输入“组件,将两个”表输入“组件拖拽至画布中,并分别将它们命名为”订单_详细订单表“和”订单-产品信息表“。如下图
- 添加“记录集连接”组件:在搜索输入框中输入“记录集连接”,即可查询到”记录集连接“组件。将一个”记录集连接“组件拖拽至画布中,同时,创建两个输入表组件到记录集连接组件的连接线,如下图:
添加字段选择组件:在搜索输入框中输入“字段选择“,即可查询到”字段选择“组件,将一个字段选择组件拖拽至画布中,并将其命名为”移除产品ID_1字段“,同时,创建记录集连接组件到移除产品ID_1字段的连接线。如下图:
添加过滤记录组件:在搜索输入框中输入“过滤记录“,即可查询到”过滤记录“组件,将一个过滤记录组件拖拽至画布中,同时创建移除产品ID_1字段到过滤记录组件的连接线。如下图:
注意:在弹出选择连接线的弹窗中,选择“主输出步骤“。
添加Excel输出组件:在搜索输入框中输入“excel输出“,即可查询到”excel输出“组件,将两个excel输出组件拖拽至画布中,并将它们分别命名为”盈利订单“和”亏损订单“,同时创建过滤记录组件到盈利订单和亏损订单的连接线。如下图:
注意:在选择连接线类型的窗口中,盈利订单选择“True输出“和亏损订单选择”False输出“
2.6配置组件信息
1)表输入组件配置:双击“订单_详细订单表“,在弹出的配置页面中,在数据库连接下拉框中选择已经同步的”线上公共数据源“。如下图:
同时,点击“获取SQL查询语句”的按钮,在弹出的新窗口中,打开“线上公共数据源”的表目录,向下滑找到“business_anaylsis.order_detail“,随后点击确认。此时,系统将会自动填写完整的SQL查询语句。如下图:
另一个“订单_产品信息表”的配置与“订单-详细订单表”的配置基本相同,只不过是获取“business_anaylsis.product“的SQL查询语句。
2)记录集连接组件的配置:双击记录集连接组件,在下拉列表中选择需要连接的数据来源,
第一个Transform选择订单_详细订单,第二个Transform选择订单_产品信息,连接类型选择LEFT OUTER。同时,点击第一个Transform中的“获取连接字段“按钮,即可获得表输入组件在订单_详细订单查询到的字段。第二个Transform以相同的操作进行。最后,要将第一个Transform中的字段只保留”product_id“字段,其余均删除;而第二个Transform中的字段只保留”id“字段,其余的也要删除。如下图所示:
3)字段选择组件配置:双击“移除产品ID_1“字段选择组件,点击”移除“,并点击”获取字段“。在获取的字段中只保留“id”字段,其余字段均要删除。如下图所示:
4)过滤记录组件的配置:双击“过滤记录“组件,其中”发送匹配的结果给“选择为盈利订单,”发送不匹配的结果给“选择亏损订单。如下图:
同时,选择字段利润profit来作为判断字段,>=0作为判断条件,再点击“value“,其值类型选择”Integer“,值输入0.最终的配置界面如下:
5)Excel输出组件配置:双击“盈利订单”excel表输出组件,在配置弹窗中,文件名修改为“盈利订单”,选择文件拓展名为“xlsx [Excel 2007 and above]”,如下图:
随后,在配置弹窗中点击“输出字段”,在空白表格处右键点击“获取字段”,再点击确认即可。最后,亏损订单的excel输出组件也做相同的配置,只不过文件名改为“亏损订单“。
2.7执行转换
组件配置完成后,点击启动按钮,开始执行转换任务.
2.8查看执行日志
任务执行完毕后,可查看相应的执行结果和日志,如下图所示:
2.9查看结果,即生成的excel文件
点击文件库,右键根目录刷新,即可看到相应的excel文件——盈利订单和亏损订单。如下图:
三、实验结果
输出的两个文件——盈利订单.xlsx和亏损订单.xlsx。其中盈利订单.xlsx中的内容为profit>=0的订单,而亏损订单.xlsx中的内容为profit<=0的订单。如下图为盈利订单.xlsx中的内容:
由图易知,盈利订单.xlsx中的profit确实均>=0,结果正确。下图为亏损订单.xlsx中的内容:
由图易知:亏损订单.xlsx中的profit确实均<0,结果正确。
