万字长文吐血整理:深度学习环境搭建笔记

环境作为一个新手劝退,老手浪费时间的东西 就算已经完全熟练配置环境也会遇到各种问题 本人短时间内经历了笔记本/服务器等四到五次完整环境的搭建,从CUDA torch版本不适配-到数据集/模型太大上传太慢,再到没有科学上网安装不了git包等等各种问题 每次配置环境都需要花费3-4个小时的时间,为避免后续再次浪费时间(和算力)整理了自己学习以来配置环境的经验 个人感觉还是涵盖了大部分情况的,后续有新的方法会继续更新笔记,如有好的方法虚心求教~ 通用 一»初始配置 配置CUDA 配置显卡驱动 配置miniconda/miniforge3/anconda(这里推荐miniconda) 配置清华源(如果apt更新慢这里也可以配置清华源) 创建conda环境 二»配置conda环境/UV环境 1:对于复现论文/复现别人项目 在pyproject.toml中将与torch相关的注释掉 根据自身CUDA版本安装torch (50系显卡使用cu128) 根据你的项目pip install -e . 跑训练/推理脚本 缺什么补什么 2:对于自己的项目 根据自身CUDA版本安装torch (50系显卡使用cu128) 用什么安装什么 三»>下载数据集/模型 统一推荐使用hfd镜像+aria2c下载,速度能稳定15MB跑满带宽 其他的方式都尝试过,最终不如这个 wget hfd.sh下载脚本 sudo apt install aria2 chmod a+x hfd.sh export HF_ENDPOINT=镜像网站 export HFD_DOWNLOADER=“aria2c -x 16 -s 16 -k 1M” 你的脚本地址 下载模型/数据集参数 下载地址 服务器 对于服务器,优先在本地做好代码和环境,后续直接打包上传,也可以镜像整体迁移 1:本地->服务器 1使用filezilla等SFTP协议的上传工具,注意使用高宽带网络(热点)校园网慢点 2将所有的代码上传,不要上传数据集/模型权重 3数据集/模型权重直接使用通用里面的下载命令下载到服务器(上传会慢) 4配置conda环境 2:直接服务器(没有魔法的话) 1先在本地git clone好,然后上传 2在本地下载好魔法安装不了的环境,然后上传服务器安装 2下载数据集/模型权重 3配置conda环境 常见问题解决 1:GPU无法使用—>torch版本不对 print(torch.cuda.is_available())确定能不能使用 记住自己是什么torch版本,配置环境先配置好torch 2:下载速度巨慢/连接超时!!! 对于模型/数据集:使用我上述的方法 对于环境包:配置清华源,不行使用aria2c下载安装,再不行找一个有魔法的机子再上传 3:版本不适配/报错 根据自己的项目先确定好自己到底要用什么! 不要后面不断改把环境搞脏了 先确定好环境-针对能改的包进行更新 每次环境跑通后,记录: pip freeze > requirements_freeze.txt conda env export > environment.yaml 4:

2026-06-28 · 1 min · 88 words · 33