当前位置: 首页 > news >正文

UKB数据库/RAP平台批量下载数据教程

使用 Table Exporter方法
第一步:
通过在本地终端(请确保你的机器上安装了dx-toolkit)或ttyd终端,执行以下命令,获取包含你数据集中所有可用数据字段的文件:

dx extract_dataset project-xxxx:record-yyyy -ddd --delimiter ","
where project-xxxx:record-yyyy is ID of your Dataset

【安装dx-toolkit】打开本地电脑中的Anaconda Prompt
【安装dx-toolkit】在Anaconda Prompt中输入

pip install dxpy

系统会进行自动安装。

假如出现类似以下报错:

WARNING: The scripts dx, dx-app-wizard, dx-build-app and dx-build-applet are installed in '/Users/user-amy/Library/Python/3.9/bin' which is not on PATH. Consider adding this directory to PATH

说明需要更新电脑的PATH环境变量配置,以包括pip安装新命令的路径(具体解决方案自行百度)。

【CLI登录】在Anaconda Prompt中输入

dx login

服务器连接成功后按提示输入RAP的用户名和密码即可

现在输入:

dx extract_dataset project-xxxx:record-yyyy -ddd --delimiter ","

注意!

project-xxxx:record-yyyy为你的数据库 例如xxxxx.dataset

完成后有三个文件

上述命令将生成3个*.csv文件,其中*.dataset.data_dictionary.csv文件包含所有可用数据字段的完整信息(字段名称位于称为 的第二列name)。

where project-xxxx:record-yyyy is ID of your Dataset

【登出/注销CLI】使用完毕养成好习惯需要登出/注销,在Anaconda Prompt中输入:

dx logout

第二步:
接下来使用Table Exporter

收集所有感兴趣的数据字段名称,并写入field_name.txt文件。文件应有1列,每行只有1个数据字段名称。上述文件应仅包含同一实体中的数据字段(例如“参与者”、“olink_instance_0”等)。不同实体中的数据字段应写入独立文件。用于的值可以在.dataset.data_dictionary.csv文件的第一列中找到(注:这与entity_dictionary.csv文件中的不同)

注意这一步:
可以在自己电脑上新建txt,
但是!
需要用Visual Studio Code软件将txt转化为unix格式的txt !!!
也可,自行百度查看其他方法windows的txt转unix的txt.

用 VS Code 打开文件 查看右下角状态栏,会显示 "CRLF" 或 "LF" 点击 "CRLF" 或 "LF",选择 "LF" 保存文件

第三步
将field_name.txt文件上传到RAP项目

根据需要,
我用这个

注意:指定实体会快更多!


到这个就批量下载完成!

RAP官网下载教程如下:

https://dnanexus.gitbook.io/uk-biobank-rap/working-on-the-research-analysis-platform/accessing-data/accessing-phenotypic-data
https://documentation.dnanexus.com/developer/apps/developing-spark-apps/table-exporter-application

可进行进一步参考!

http://www.jsqmd.com/news/172961/

相关文章:

  • javaSE继承随笔
  • 做好孩子视力守护者预防“小眼镜”秘籍在这里
  • 智能一卡通系统配置清单包含管理中心设备、门禁、考勤、访客、通道闸机、梯控、停车场等九大子系统。核心设备包括服务器、管理平台、读卡器等,各子系统通过统一平台实现数据交互与权限管理
  • 云服务器 vs 传统服务器:核心区别与选型指南​
  • 云服务器成本管控:从粗放投入到精细运营
  • 智慧指挥中心建设厂商重磅盘点,成功案例+专业背书,itc保伦股份值得信赖 - 速递信息
  • Java+React全栈开发面试宝典(完整60题)
  • 云服务器架构演进:从虚拟化到容器化与无服务器的跨越
  • 云服务器架构演进:从虚拟化到容器化与无服务器的跨越
  • 2026年AI入门指南:四个学习平台的使用体验 - 速递信息
  • 墨香飘洋:当外国友人执起中国毛笔
  • 基于微信小程序的课程资料共享平台设计与实现
  • 回收站存在大量对象,导致Insert into...select语句夯住
  • 重磅签约!上海比孚携手 Dify,让企业 AI Agent 开发更简单、价值落地更高效
  • docker部署elk+filebeat日志收集分析系统
  • 科研牛马千万不要错过!手把手教你用AI精准匹配真实参考文献,仅需一个专业应用+两个提示词指令
  • 云服务器运维实战:从环境搭建到安全加固全流程​
  • iBox CEO宣松涛畅谈数字文创破局之道
  • Nginx 站点垂直扩容(单机性能升级)全攻略
  • CCF-GESP计算机学会等级考试2025年12月三级C++T2 小杨的智慧购物
  • 行车记录仪乱码大揭秘:数据恢复不再是难题!
  • 云服务器:数字时代的基础设施革命与核心价值​
  • CCF-GESP计算机学会等级考试2025年12月四级C++T1 建造
  • 自考必看!8个AI论文软件,搞定格式规范+高效写作!
  • 上帝释放了恶魔,恶魔创造了天堂-有趣的经济人假设
  • java基于Springboot卖家乐二手电子产品回收系统-vue
  • CCF-GESP计算机学会等级考试2025年12月四级C++T2 优先购买
  • vue基于PHP的招聘求职管理系统的设计与实现
  • java基于SpringBoot校园快递代取系统-vue三端
  • 从模型炼丹到推理复用:我用 AI 镜像把成本砍掉 68% 的全过程