当前位置: 首页 > news >正文

下载数据集

在 Ubuntu 上下载 Hugging Face 数据集,我推荐使用 `huggingface-cli` 这个官方工具,它稳定且支持断点续传。国内用户配置 `hf-mirror.com` 镜像站后,下载速度会快很多。

下面是完整的命令步骤,你可以逐条复制执行。

### 🐧 Ubuntu 完整下载命令

打开你的终端 (Terminal),依次运行以下命令:

**1. 安装依赖**
首先,确保系统安装了 `git-lfs`,这是下载大文件所必需的。
```bash
sudo apt update
sudo apt install git-lfs -y
git lfs install
```

**2. 安装 huggingface-cli**
这是 Hugging Face 官方的下载工具。
```bash
pip install -U huggingface_hub
```

**3. 配置国内镜像加速(关键步骤)**
这一步会将下载源切换到国内镜像站,能大幅提升下载速度和稳定性。
```bash
export HF_ENDPOINT=https://hf-mirror.com
```
为了让这个配置在下次打开终端时依然生效,可以把它写入配置文件:
```bash
echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
```

**4. 执行下载命令**
根据你截图中的信息,数据集ID是 `Dobot-Official/Dobot-xtrainer-demo-data`。运行以下命令即可将它下载到当前目录下的 `Dobot-xtrainer-demo-data` 文件夹中。

```bash
huggingface-cli download Dobot-Official/Dobot-xtrainer-demo-data \
--repo-type dataset \
--local-dir ./Dobot-xtrainer-demo-data \
--resume-download
```

**参数说明:**
* `Dobot-Official/Dobot-xtrainer-demo-data`:你要下载的数据集ID。
* `--repo-type dataset`:指定下载的是一个**数据集**(而不是模型)。
* `--local-dir ./Dobot-xtrainer-demo-data`:指定文件保存的本地路径。
* `--resume-download`:启用**断点续传**功能,如果下载中断,再次运行相同命令即可继续,不用担心数据丢失。

---

### 🚀 备选方案:使用 `hfd` 脚本(追求极致速度)

如果你熟悉命令行,并且希望下载速度更快,可以使用 `hfd` 脚本,它调用 `aria2` 进行多线程下载,能跑满带宽。

```bash
# 1. 安装 aria2 下载工具
sudo apt install aria2 -y

# 2. 下载 hfd 脚本并赋予执行权限
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh

# 3. 设置镜像站
export HF_ENDPOINT=https://hf-mirror.com

# 4. 执行下载(使用 4 个线程,可根据网络情况调整)
./hfd.sh Dobot-Official/Dobot-xtrainer-demo-data \
--dataset \
--tool aria2c \
-x 4
```

> **请注意**:这个 6.12GB 的数据集下载需要一些时间,请确保网络稳定,并且有足够的磁盘空间。如果在下载中遇到任何错误,可以把提示信息发给我看看。

http://www.jsqmd.com/news/658410/

相关文章:

  • Solon AI v3.13 发布(智能体开发框架,支持 Java8 到 Java26)
  • 如何用AI视频分析工具快速理解视频内容:完整指南
  • 【电子通识】是电子世界的“硬通货”——嵌入式工程师必懂的优先数系
  • 利用AI优化java系统入门和注意点
  • OpenClaw 技能太多不知道装哪个?按这份清单从上往下装就行
  • 如何设计一个支持“全文检索”的应用程序?
  • 使用Java代码,httpclient调用彩云天气接口-token版本
  • LangGraph 循环节点避坑:5个导致死循环的错误与终止条件设计
  • 超万张高清药片图像数据集助力智能医疗检测与识别算法研发
  • 基于STM32LXXX的模数转换芯片ADC(ADS1100A0IDBVR)驱动C程序设计
  • YAML配置介绍
  • OpenWRT插件编译避坑指南:如何将任意第三方插件集成到GitHub Actions工作流
  • Chapter 11: Physical Layer - Logical (Gen1 and Gen2)
  • PADS Layout在Pcb设计前的实用设置
  • Stardock Fences(桌面管理工具) 6.02
  • ceph子集群和rados
  • 基于STM32LXXX的模数转换芯片ADC(SGM58031XMS10G/TR)驱动C程序设计
  • 技术书籍推荐
  • Java 常见 Map 对比总结:HashMap、LinkedHashMap、TreeMap、ConcurrentHashMap
  • 负载箱与电网质量的相互影响:用户应知的技术事实与应对策略
  • 深入RT-Thread BSP引擎:从Kconfig选项到SCons脚本,彻底搞懂STM32工程构建的里子
  • 图片去水印 API 哪个好?5种方案实测对比(附避坑指南 + 免费在线体验)
  • 杀疯了!Claude Opus 4.7 突袭发布,多项能力登顶第一
  • 保姆级教程:用Scikit-learn的train_test_split和cross_val_score搞定数据集划分与交叉验证
  • Cadence 17.2 allegro如何导出封装库-library
  • 跨越桌面与移动的边界:Windows 10如何无缝融合Android应用生态?
  • ODI备案代办
  • 为什么Google Brain团队在SITS2026圆桌突然终止演示?背后是智能代码生成的“第三道红线”:训练数据版权溯源不可绕行(附法律+技术双轨应对方案)
  • 虚拟化赛道大洗牌,Infortrend存储带Proxmox VE-凭硬核实力成为企业替代方案首选
  • 告别字典盲打:用BurpSuite Intruder对DVWA密码爆破进行结果智能分析与过滤实战