当前位置: 首页 > news >正文

EgoVerse 数据集全量拉取:保姆级实操指南

EgoVerse 数据集全量拉取:保姆级实操指南

服务器: data_server_02

存储路径: /mnt/vepfs/data/share/EgoVerse

核心原理: 通过项目脚本换取 Cloudflare R2 临时凭证,使用 aws-cli 强制指定 endpointauto 区域实现断点续传。

一、环境初始化与工具安装

由于服务器原有的 AWS 工具版本或配置可能不兼容,首先需安装最新版 AWS CLI 并建立基础通信。

1. 安装最新版 AWS CLI

# 下载并解压安装包
unzip awscli-exe-linux-x86_64.zip
sudo ./aws/install# 验证版本
/usr/local/bin/aws --version

2. 基础配置

激活指令所需的占位身份(Region 请务必填 us-east-2):

/usr/local/bin/aws configure
# Access Key ID: AKIAYDKH4BNCAYHE5NG2
# Secret Access Key: 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
# Default region name: us-east-2

二、获取动态下载凭证(通关钥匙)

EgoVerse 数据存在 Cloudflare R2,需通过项目脚本从 AWS Secrets Manager 换取临时凭证。

# 进入 EgoVerse 项目目录
cd /root/EgoVerse# 执行授权脚本
source egomimic/utils/aws/setup_secret.sh

成功后,系统会生成凭据文件:/root/.egoverse_env

三、部署自动化下载脚本(核心步骤)

该脚本集成了高并发配置自动排队同步功能,支持断点续传。

cat << 'EOF' > /mnt/vepfs/data/share/EgoVerse/download_egoverse.sh
#!/bin/bashSOURCE_ENV="/root/.egoverse_env"
BASE_DIR="/mnt/vepfs/data/share/EgoVerse"
LOG_FILE="$BASE_DIR/download_progress.log"if [ -f "$SOURCE_ENV" ]; thensource "$SOURCE_ENV"
elseecho "错误: 找不到凭证文件 $SOURCE_ENV"exit 1
fi# 性能优化:开启50并发请求
/usr/local/bin/aws configure set default.s3.max_concurrent_requests 50
/usr/local/bin/aws configure set default.s3.max_queue_size 10000# 同步顺序:processed_v3 (核心) -> raw_v2 (原始视频) -> 其他
BIG_FOLDERS=("processed_v3" "raw_v2" "processed_v2" "contributions")for FOLDER in "${BIG_FOLDERS[@]}"; doecho "[$(date +'%Y-%m-%d %H:%M:%S')] >>> 正在同步: $FOLDER ..." | tee -a "$LOG_FILE"mkdir -p "$BASE_DIR/$FOLDER"AWS_ACCESS_KEY_ID=$R2_ACCESS_KEY_ID \AWS_SECRET_ACCESS_KEY=$R2_SECRET_ACCESS_KEY \/usr/local/bin/aws s3 sync s3://$BUCKET/$FOLDER/ "$BASE_DIR/$FOLDER/" \--endpoint-url $AWS_ENDPOINT_URL_S3 \--region auto[ $? -eq 0 ] && echo "<<< $FOLDER 成功" || echo "!!! $FOLDER 失败"
done
EOFchmod +x download_egoverse.sh

四、后台运行与监控

数据集体积庞大(预计数 TB),务必在 screen 中运行:

  • 开启后台窗口: screen -S egoverse_sync
  • 启动下载: ./download_egoverse.sh
  • 脱离窗口: Ctrl + A 然后按 D
  • 查看实时进度: tail -f download_progress.log

五、踩坑笔记(排错必读)

错误现象解决方案
X-Amz-Security-Token 报错 R2 公开桶不支持 Session Token,脚本中已剔除此变量。
InvalidRegionName 报错 R2 必须强制指定 --region auto 参数。
Unknown options: --threads sync 不直接支持线程参数,需提前通过 aws configure set 配置。

 

http://www.jsqmd.com/news/539807/

相关文章:

  • League-Toolkit:英雄联盟玩家效率提升工具全指南
  • 2026 广州国际教育消费指南:英语培训机构怎么选?看完这篇就够了 - 服务品牌热点
  • 【出版 | 检索】第二届智慧交通与未来出行国际学术会议(ITFM 2026)
  • 大疆司空平台接入实战:司空 Sync文件同步
  • 告别反复重录!这款 AI 口播提词器,让你一次过稿不翻车
  • Claude Remote Control 技术详解:跨设备无缝协作的远程会话控制方案
  • 启世计划遭黑客入侵 平台暂停服务启动紧急修复
  • RK3588 编译GDB
  • STM32F1XX 的 CAN 的 波特率配置
  • linux查看文件夹总大小
  • 2026贵州源能达钢材批发联系方式公布,在贵州做镀锌板现货批发怕踩坑?认准这个电话 - 精选优质企业推荐榜
  • 构建高效自动化抖音内容采集系统:专业级批量下载解决方案
  • Aseprite进阶指南:从像素瓦片到Unity动态Tilemap构建
  • 深圳技校哪家强?宝山技工学校专业全、实训强 - 服务品牌热点
  • 计算机毕业设计springboot移动端机房管理系统 基于SpringBoot的高校实验教学资源智能管理平台 基于SpringBoot的智慧实训中心数字化运营系统
  • 告别Joplin!用MarkDownload+Obsidian打造你的网页剪藏工作流(附完整配置JSON)
  • 保姆级教程:手把手教你从ENSEMBL官网下载GRCh38/GRCh37的GTF注释文件(附网址规律总结)
  • 收藏!5种Agent Skill设计模式,让你的大模型Agent更稳定、可复用、不跑偏!
  • 黔东南工程钢材怕踩坑?2026贵州源能达钢材批发官方电话与选购指南 - 精选优质企业推荐榜
  • Claude Code 工程化实战:从工具使用者到 Agent 构建者的进阶之路
  • 从两套系统到一条 SQL:SelectDB search() 搞定日志的搜索与分析
  • vscode-markdown-preview-enhanced 配置实战指南:从场景需求到性能优化
  • 如何快速修复TranslucentTB在Windows 11更新后无法启动:终极解决方案指南
  • ai测试文档first
  • 使用pycharm调试后端项目
  • 【实战指南】利用n8n工作流实现SQLBot MCP服务的自动化数据查询
  • 3步掌握暗黑2存档编辑:无需安装的网页工具全解析
  • BthPS3驱动架构深度解析:Windows内核态蓝牙协议栈扩展技术实现
  • 2026.3.22复习实验拓扑
  • 文墨共鸣模型处理网络协议文本:智能分析与配置生成