下载数据集
在 Ubuntu 上下载 Hugging Face 数据集,我推荐使用 `huggingface-cli` 这个官方工具,它稳定且支持断点续传。国内用户配置 `hf-mirror.com` 镜像站后,下载速度会快很多。
下面是完整的命令步骤,你可以逐条复制执行。
### 🐧 Ubuntu 完整下载命令
打开你的终端 (Terminal),依次运行以下命令:
**1. 安装依赖**
首先,确保系统安装了 `git-lfs`,这是下载大文件所必需的。
```bash
sudo apt update
sudo apt install git-lfs -y
git lfs install
```
**2. 安装 huggingface-cli**
这是 Hugging Face 官方的下载工具。
```bash
pip install -U huggingface_hub
```
**3. 配置国内镜像加速(关键步骤)**
这一步会将下载源切换到国内镜像站,能大幅提升下载速度和稳定性。
```bash
export HF_ENDPOINT=https://hf-mirror.com
```
为了让这个配置在下次打开终端时依然生效,可以把它写入配置文件:
```bash
echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
```
**4. 执行下载命令**
根据你截图中的信息,数据集ID是 `Dobot-Official/Dobot-xtrainer-demo-data`。运行以下命令即可将它下载到当前目录下的 `Dobot-xtrainer-demo-data` 文件夹中。
```bash
huggingface-cli download Dobot-Official/Dobot-xtrainer-demo-data \
--repo-type dataset \
--local-dir ./Dobot-xtrainer-demo-data \
--resume-download
```
**参数说明:**
* `Dobot-Official/Dobot-xtrainer-demo-data`:你要下载的数据集ID。
* `--repo-type dataset`:指定下载的是一个**数据集**(而不是模型)。
* `--local-dir ./Dobot-xtrainer-demo-data`:指定文件保存的本地路径。
* `--resume-download`:启用**断点续传**功能,如果下载中断,再次运行相同命令即可继续,不用担心数据丢失。
---
### 🚀 备选方案:使用 `hfd` 脚本(追求极致速度)
如果你熟悉命令行,并且希望下载速度更快,可以使用 `hfd` 脚本,它调用 `aria2` 进行多线程下载,能跑满带宽。
```bash
# 1. 安装 aria2 下载工具
sudo apt install aria2 -y
# 2. 下载 hfd 脚本并赋予执行权限
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
# 3. 设置镜像站
export HF_ENDPOINT=https://hf-mirror.com
# 4. 执行下载(使用 4 个线程,可根据网络情况调整)
./hfd.sh Dobot-Official/Dobot-xtrainer-demo-data \
--dataset \
--tool aria2c \
-x 4
```
> **请注意**:这个 6.12GB 的数据集下载需要一些时间,请确保网络稳定,并且有足够的磁盘空间。如果在下载中遇到任何错误,可以把提示信息发给我看看。
