当前位置: 首页 > news >正文

基于助睿数智(Uniplore)平台的 ETL 入门实验报告

一、实验背景

1.1 实验目的

本次实验基于助睿数智(Uniplore)一站式数据科学实验平台,目标是掌握数据集成(ETL)的基本流程与可视化操作,具体达成以下技能:

熟悉助睿 ETL 平台的界面与核心概念,掌握新建转换、添加组件、执行转换的完整流程。

熟练使用表输入、记录集连接、字段选择、过滤记录、表输出等核心 ETL 组件。

独立完成多表关联、数据过滤与分流处理的实战任务,理解数据从抽取、转换到加载的完整逻辑。

1.2 实验环境

实验平台:助睿数智(Uniplore)一站式数据科学实验平台

平台地址:https://lab.guilian.cn/

数据源:MySQL 数据库,包含订单表 business_anaylsis.order_detail 和产品表 business_anaylsis.product。

1.3 处理流程简述

本次实验的整体处理逻辑如下:

数据抽取:通过「表输入」组件分别读取订单表与产品表的数据。

数据关联:使用「记录集连接」组件,基于公共字段完成两张表的关联操作。

字段处理:通过「字段选择」组件,筛选并整理出后续分析所需的目标字段。

数据过滤:利用「过滤记录」组件,按条件对数据进行分流,将符合与不符合条件的数据分别输出。

数据加载:将处理后的数据通过「表输出」组件写入目标数据库表中,完成数据加载。

二、实验步骤

步骤 1:新建 ETL 转换

操作说明:登录助睿平台,进入数据集成模块,新建一个空白的 ETL 转换任务:
登入贵兰,依次点击


进入助睿



新建团队


填入信息,点击确认即可

进入我的项目,选择刚刚创建的团队或者自己的团队,进行新建项目



填写项目名称,并确认(此处我以“4.27 课堂实验”为例)



双击进入项目

新建转换流

填入转换流名称然后点击确认



同步元数据:

配置要点:为转换命名(如 “订单利润分流处理”),并保存至指定项目路径。

步骤 2:添加所有组件并完成连线

操作说明:在画布中一次性添加本次实验所需的全部组件,并按数据流转顺序完成连接:

拖入 2 个「表输入」组件(订单_详细订单,订单_产品信息)

重命名两个表输入组件,分别命名为订单_详细订单,订单_产品信息(两个表输入组件的重命名操作基本相同,这里仅给出一个样例)

拖入 1 个「记录集连接」组件

拖入 1 个「字段选择」组件


重命名为“移除产品ID_1字段”

拖入 1 个「过滤记录」组件

拖入 2 个「Microsoft Excel 输出」组件(分别用于存储符合条件和不符合条件的数据)



重命名两个输出组件,分别命名为盈利订单,亏损订单


按流程连线:

订单_详细订单、订单_产品信息 → 记录集连接(出现一个“十”点击拖拉即可)

记录集连接 → 移除产品ID_1字段

移除产品ID_1字段 → 过滤记录(连接后记得选择主输入步骤)

过滤记录的 “条件为真” 输出流 → 盈利订单(选择True输出)

过滤记录的 “条件为假” 输出流 → 亏损订单(选择False输出)

配置要点:确保组件之间的数据流方向正确,形成完整的处理链路。
完整图:

步骤 3:配置「表输入」组件(订单_详细订单)

操作说明:选中订单表对应的「表输入」组件,配置数据源与查询语句。

配置要点:

选择正确的 MySQL 数据库连接“线上公共数据源(Readonly)”。点击获取SQL查询语句

点开如下目录



找到order_detail表,点击表并确认


再次点击确认


获取到有效的SQL后,点击确认

步骤 4:配置「表输入」组件(订单_产品信息)

操作说明:选中产品表对应的「表输入」组件,配置数据源与查询语句。

配置要点:与步骤三类似,只需将获取的表换成business_anaylsis.product即可

步骤 5:配置「记录集连接」组件

操作说明:选中「记录集连接」组件,设置两表的关联方式与关联字段。

配置要点:第一个Transform选择订单_详细订单,第二个选择订单_产品信息,连接类型选择LEFT OUTER



点击两个Transform的获取连接字段

第一个的连接字段仅保留product_id,第二个仅保留id字段,其余字段全部右键删除,然后点击确认

步骤 6:配置「字段选择」组件

操作说明:选中「字段选择」组件,筛选并调整需要保留的字段。

配置要点:双击字段选择组件,点击移除,在“暂无数据”的方框里右键并点击获取字段

保留id字段,其余字段全删除,因为product_id和id的内容相同



步骤 7:配置「过滤记录」组件

操作说明:选中「过滤记录」组件,设置过滤条件与数据分流规则。

配置要点:选择将结果发送给不同的后续处理步骤



选择利润(Profit)字段作为判断字段,选中如下图所示字段:



选择“>=0”作为判断条件,具体的的判断函数和值的配置如下图所示:


点击value,类型选择Integer,值为0



至此过滤记录,配置完成,点击确认即可

步骤 8:配置「表输出」组件(两个)

操作说明:分别选中两个「表输出」组件,配置目标表信息。

配置要点:

为第一个Excel输出组件(接收符合条件数据):文件名改为“盈利订单”,扩展名改为如下图所示


点击输出字段,然后右键获取字段



最终结果如图所示,点击确认即可

为第二个Excel输出组件(接收不符合条件数据):亏损订单也进行同样的配置

步骤 9:运行转换并查看日志

操作说明:点击保存然后再点击运行按钮,执行整个 ETL 转换流程,并查看运行日志。

配置要点:点击保存和运行



点击启动



最终结果和日志(无报错)

三、实验结果

3.1 输出数据结果

本次实验生成了两张目标数据表:

盈利订单:存储所有满足过滤条件(Profit >= 0)的订单 - 产品关联数据。

亏损订单:存储不满足过滤条件的数据。

具体结果如下图所示:

助睿平台的文件库中出现盈利订单和亏损订单的文件



右键文件并下载两个文件

3.2 结果分析与验证

数据完整性验证:对比原订单表(10000 条)、产品表(1977 条)与输出表记录数,盈利订单 7977 条、亏损订单 2023 条,总条数与关联后数据一致,无数据丢失、重复或遗漏。

数据准确性验证:打开导出的 Excel 文件随机抽查,订单号、产品名称、单价、利润等字段与源数据一致,左连接关联逻辑正确,字段无错位、无乱码。数据分流验证:盈利订单文件中profit ≥ 0,亏损订单文件中profit < 0,过滤条件完全生效,数据分流准确无误。


盈利订单:


亏损订单:

四、问题与解决

问题 1:记录集连接组件关联失败,无数据输出

问题现象:两个表输入组件均读取到数据,但记录集连接输出为 0 条。

问题原因:未正确指定关联字段,或字段选择错误,导致两表未匹配到关联数据。

解决方法:在记录集连接中,将第一个 Transform 连接字段设为product_id,第二个设为id,删除多余字段后重新执行,关联正常输出数据。

问题 2:过滤记录组件配置后分流异常

问题现象:过滤条件设置后,盈利 / 亏损订单数据分配不符合预期。

问题原因:未正确选择profit字段、判断条件写错,或输出组件未对应 True/False 流。

解决方法:重新选择profit字段,设置条件 **>= 0**,将 True 输出连至盈利订单、False 输出连至亏损订单,配置无误后分流正常。

五、实验总结

5.1 实验收获

我完整掌握助睿 ETL 从新建团队 / 项目→新建转换流→批量拖放组件→连线→分步配置→运行导出的全流程操作,理解 Pipeline、Transform、Hops 等核心概念。熟练使用表输入、记录集连接、字段选择、过滤记录、Microsoft Excel 输出等组件,能独立完成多表左连接、字段清理、按利润条件分流的 ETL 任务。通过本次实验,我对数据抽取、关联、清洗、过滤、加载的完整链路有了实操认知,能独立排查配置错误并完成数据分流验证。

5.2 平台整体评价

助睿数智(Uniplore)平台的可视化 ETL 功能非常友好,无需编写复杂代码,通过拖拽组件即可完成数据处理流程,极大降低了 ETL 学习的门槛。平台组件丰富、配置清晰,运行日志和监控也很完善,方便及时排查问题,非常适合初学者快速上手数据集成相关技能。

六、其他

平台全称:助睿数智(Uniplore)的数据集成平台(ETL)

平台定位:覆盖数据接入、ETL 处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能平台

产品官网:https://www.uniplore.com/

实验平台地址:https://lab.guilian.cn/

http://www.jsqmd.com/news/760596/

相关文章:

  • hexo 上传到github命令报错
  • 【最新猿人学】 js 混淆 - 回溯 扣代码,补环境
  • AI时代,社交能力是走向优秀的软实力
  • 视频内容感知缓存技术WorldCache原理与实践
  • GoPaw:Go语言高性能网络抓包库的架构解析与实战应用
  • 法法【牛客tracker 每日一题】
  • MPC与漏斗控制结合:优化与鲁棒性的平衡
  • 量化金融工具箱:从数据清洗到策略回测的完整解决方案
  • 思维导图拆解项目范围 3 个真实落地案例
  • 如何在 Docker Compose 中配置健康检查 healthcheck 参数详解
  • 基于树莓派的Mini Pupper四足机器人开发指南
  • OpenClaw 记忆系统:MEMORY.md 使用指南
  • WarcraftHelper终极指南:解决魔兽争霸3现代兼容性问题的完整教程
  • 【光学】基于matlab菲涅尔光谱和角光谱ASPSAP模拟聚焦高斯光束传播【含Matlab源码 15406期】
  • AI助手角色稳定性控制:三维坐标系与算法实现
  • 2026PLM怎么选:PLM、SolidWorks、电磁仿真软件选择指南 - 优质品牌商家
  • 如何永久免费激活Windows和Office:智能KMS激活脚本终极指南
  • AI思维伙伴:心智模型与结构化流程如何提升决策质量
  • 新手也能懂:用Python脚本模拟UDS服务端,带你玩转NRC响应逻辑
  • 别再死记硬背公式了!用Python从零实现粒子群算法(PSO),5分钟搞定函数优化
  • PHP支付接口国密改造最后窗口期!2024年12月31日前未通过CFCA国密算法一致性检测的系统将终止金融交易权限
  • 南京别墅防水服务商排行:5家本地靠谱机构盘点 - 奔跑123
  • 面试官最爱问的‘时间复杂度’分析:从这3道经典循环题开始,告别O(n²)恐惧
  • 告别双线性插值!在YOLOv9中集成CARAFE上采样,实测小目标检测涨点明显
  • 智能体化安全运营平台:基于LLM的SOC自动化架构与实战
  • 2026年Q2胶合板卡板怎么选:卡板厂家、木托盘、木箱厂家、胶合板卡板、胶合板木箱、免熏蒸卡板、免熏蒸木箱、出口卡板选择指南 - 优质品牌商家
  • 深入紫光同创FPGA的HSST模块:除了光纤通信,它还能玩转PCIe和万兆以太网吗?
  • MTKClient终极实战指南:解锁联发科设备的完整逆向工程与刷机方案
  • G-Helper开源工具一键修复华硕ROG游戏本色彩配置文件丢失问题
  • 别再让Tomcat报‘Invalid character in method name‘了!手把手教你排查HTTPS/HTTP混用、证书和缓冲区问题