AutoDL 下载 HF 数据集配置环境一次性跑通!稳定 15MB+

在AutoDL的服务器上,我在下载数据集和模型权重的时候踩了特别多的坑。 我尝试用过云盘传 也试过下载在本地,再通过服务器上传 全部都失败了!不是上传特别慢就是数据集太多,太散,太难传。 最后,我找到了解决方法的最终版本,下载速度稳定15MB+ 一:创建conda环境 conda create -n diffusionvl python=3.10 -y conda activate diffusionvl 具体包的安装暂且跳过,我们核心讲下载数据集的部分 二:配置huggingface环境 这里有非常多的版本,有用脚本的,有用Python的,还有用CLI,这里我只推荐一个 hfd (足足浪费了两天时间) 首先下载 wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 安装hfd.sh依赖(aria2c) apt update && apt install -y aria2 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 最关键的一步,加速! (16线程+分块下载) export HFD_DOWNLOADER=“aria2c -x 16 -s 16 -k 1M” 三:下载数据集(下载模型也同理) 这里我以我下载的数据集为例: 执行hfd.sh下载LLaVA-Pretrain数据集 /root/autodl-tmp/DiffusionVL/data/hfd.sh liuhaotian/LLaVA-Pretrain –dataset \ –local-dir /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain 前面是我下载的地址hfd.sh ,中间为数据集的名字,后面是我要下载数据集的位置(当然可以直接丢给gpt,告诉它仿照这一行命令) 如果中间碰到什么问题,可以关掉窗口,再次执行这个命令,可以断点续传 解压 unzip -q /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain/images.zip \ -d /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain/images

2026-06-28 · 1 min · 66 words · 33