Tutorial on 33

AutoDL 下载 HF 数据集配置环境一次性跑通！稳定 15MB+

Sun, 28 Jun 2026 02:30:00 +0000

在AutoDL的服务器上，我在下载数据集和模型权重的时候踩了特别多的坑。我尝试用过云盘传也试过下载在本地，再通过服务器上传全部都失败了！不是上传特别慢就是数据集太多，太散，太难传。最后，我找到了解决方法的最终版本，下载速度稳定15MB+

一：创建conda环境 conda create -n diffusionvl python=3.10 -y conda activate diffusionvl 具体包的安装暂且跳过，我们核心讲下载数据集的部分二：配置huggingface环境这里有非常多的版本，有用脚本的，有用Python的，还有用CLI，这里我只推荐一个 hfd （足足浪费了两天时间）首先下载 wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 安装hfd.sh依赖（aria2c） apt update && apt install -y aria2 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com

最关键的一步，加速! (16线程+分块下载) export HFD_DOWNLOADER=“aria2c -x 16 -s 16 -k 1M”

三：下载数据集（下载模型也同理）这里我以我下载的数据集为例：执行hfd.sh下载LLaVA-Pretrain数据集 /root/autodl-tmp/DiffusionVL/data/hfd.sh liuhaotian/LLaVA-Pretrain –dataset \ –local-dir /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain

前面是我下载的地址hfd.sh ，中间为数据集的名字，后面是我要下载数据集的位置（当然可以直接丢给gpt，告诉它仿照这一行命令）

如果中间碰到什么问题，可以关掉窗口，再次执行这个命令，可以断点续传

解压 unzip -q /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain/images.zip \ -d /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain/images

万字长文吐血整理：深度学习环境搭建笔记

Sun, 28 Jun 2026 02:30:00 +0000

环境作为一个新手劝退，老手浪费时间的东西就算已经完全熟练配置环境也会遇到各种问题

本人短时间内经历了笔记本/服务器等四到五次完整环境的搭建，从CUDA torch版本不适配-到数据集/模型太大上传太慢，再到没有科学上网安装不了git包等等各种问题每次配置环境都需要花费3-4个小时的时间，为避免后续再次浪费时间（和算力）整理了自己学习以来配置环境的经验个人感觉还是涵盖了大部分情况的，后续有新的方法会继续更新笔记，如有好的方法虚心求教~

通用

一»初始配置配置CUDA 配置显卡驱动配置miniconda/miniforge3/anconda（这里推荐miniconda）配置清华源（如果apt更新慢这里也可以配置清华源）创建conda环境

二»配置conda环境/UV环境 1：对于复现论文/复现别人项目在pyproject.toml中将与torch相关的注释掉根据自身CUDA版本安装torch （50系显卡使用cu128）根据你的项目pip install -e . 跑训练/推理脚本缺什么补什么 2：对于自己的项目根据自身CUDA版本安装torch （50系显卡使用cu128）用什么安装什么三»>下载数据集/模型统一推荐使用hfd镜像+aria2c下载，速度能稳定15MB跑满带宽其他的方式都尝试过，最终不如这个 wget hfd.sh下载脚本 sudo apt install aria2 chmod a+x hfd.sh export HF_ENDPOINT=镜像网站 export HFD_DOWNLOADER=“aria2c -x 16 -s 16 -k 1M” 你的脚本地址下载模型/数据集参数下载地址

服务器

对于服务器，优先在本地做好代码和环境，后续直接打包上传，也可以镜像整体迁移 1：本地->服务器 1使用filezilla等SFTP协议的上传工具，注意使用高宽带网络（热点）校园网慢点 2将所有的代码上传，不要上传数据集/模型权重 3数据集/模型权重直接使用通用里面的下载命令下载到服务器（上传会慢） 4配置conda环境 2：直接服务器（没有魔法的话） 1先在本地git clone好，然后上传 2在本地下载好魔法安装不了的环境，然后上传服务器安装 2下载数据集/模型权重 3配置conda环境

常见问题解决

1：GPU无法使用—>torch版本不对 print(torch.cuda.is_available())确定能不能使用记住自己是什么torch版本，配置环境先配置好torch 2：下载速度巨慢/连接超时！！！对于模型/数据集：使用我上述的方法对于环境包：配置清华源，不行使用aria2c下载安装，再不行找一个有魔法的机子再上传 3：版本不适配/报错根据自己的项目先确定好自己到底要用什么！不要后面不断改把环境搞脏了先确定好环境-针对能改的包进行更新每次环境跑通后，记录： pip freeze > requirements_freeze.txt conda env export > environment.yaml 4：

如何写 intro？

Sun, 28 Jun 2026 02:30:00 +0000

1.开篇定调：领域背景 + 研究意义

从宏观领域突破切入：以 “多模态 LLM 的重大突破” 为引子，说明其对下游研究（机器人系统）的推动作用。
定义核心研究对象：明确 VLA（Vision-Language-Action）模型的定位 ——“指令驱动机器人操作的新解决方案”。
引用权威文献支撑：嵌入最新相关研究（2024-2025 年文献），增强领域时效性和可信度。相比于相关工作写的要长一点

2. 深入现状：现有方案 + 核心瓶颈（第 2-3 段）

作用：客观阐述现有研究的进展，重点突出未解决的问题，为本文研究铺垫必要性。
写作技巧：
- 先讲现有方案的通用逻辑：说明当前 VLA 模型的典型流程（大规模具身数据预训练 VLM→Policy 网络生成动作），引用关键数据集和方法（如 Open X-Embodiment、DROID）。
- 用 “However” 转折引出瓶颈：聚焦 3 个核心痛点 —— 依赖大尺度 VLM、训练 / 微调效率低、GPU 显存消耗高、推理吞吐量低。
- 数据 / 图表辅助强化：通过 Figure 1（对比表格）直观展示瓶颈（如 7B 模型 vs 0.5B 模型的显存、吞吐量差异），让问题更具体。
- 提出核心研究问题：以设问句形式点出本文要解决的关键问题，且强调问题的 “稀缺性”（“most essential but rarely discussed question”）。

To answer this question 3. 给出方案：本文核心方法概述（第 4 段）

作用：简要介绍本文的解决方案，回应前文提出的问题，让读者快速把握研究核心。
写作技巧：
- 明确方案名称与定位：直接点出 “VLA-Adapter” 是 “新型桥接范式”（novel bridging paradigm）。
- 提炼方案核心逻辑：说明方案如何解决问题 ——“系统探索不同条件对动作生成的影响→设计带 Bridge Attention 的轻量级 Policy 模块→自主注入最优 VL 条件到动作空间”。
- 突出方案核心优势：用关键指标初步展示价值（“tiny-scale backbone”“high performance”“fast inference speed”），引发读者兴趣。

4. 总结价值：主要贡献提炼（第 5 段）

作用：明确本文的学术价值和创新点，让读者清晰了解研究的增量贡献。
写作技巧：
- 分点但不生硬：用 “・” 引导 3-4 个核心贡献，每个贡献聚焦一个维度（创新点、方法价值、实验验证）。
- 突出 “创新性” 和 “实用性”：
  - 创新点：强调 “首次系统分析”“全新范式” 等稀缺性表述；
  - 方法价值：说明方案如何解决瓶颈（“降低对大模型的依赖”“弥合模态鸿沟”）；
  - 实验价值：强调结果的全面性（“模拟 + 真实场景”“高成功率 + 低成本”）。

如何写 related work？

Sun, 28 Jun 2026 02:30:00 +0000

技术移植型 A为本范式，B为新技术 related work通常有两个段落：一，跨领域技术溯源（B 范式→本文 A 领域）

开篇定义句：一句话讲清 B 范式的核心本质、起源领域、解决的核心问题
原生领域奠基性进展讲 B 范式在起源领域的开山工作、核心实现方式、被严格验证的效果，只用 1-2 篇最经典的引文，不堆砌文献（方式，例子，效果）
跨领域平滑过渡讲 B 范式从原生领域拓展到和 A 领域相邻的领域，用了什么实现方式、代表性工作、取得的效果，完成「B→中间领域→A 领域」的过渡，避免逻辑跳脱
B 范式迁移到聚焦本文的研究场景 A，讲 B 范式已经在 A 领域有哪些应用、实现方式、代表性工作、进展
精准锚定局限收尾一句话戳中「B→A 的现有工作的核心缺陷」，且这个缺陷必须和本文的创新点一一对应

本文的核心范式A 核心目标：梳理本文所属赛道的研究现状，客观认可前人工作的核心贡献，精准锚定未被解决的核心缺口，最终论证「本文的创新恰好填补了这个核心缺口」，和模块一形成闭环

范式起源与核心定义一句话讲清本文所属的核心范式 A 是什么、解决 A 领域的什么核心问题、奠基性的研究背景
主流分支分层梳理按技术路线把 A 领域的工作分成 2-3 个分支，严格遵循「远相关分支先写、简略写；近相关分支后写、详细写」的原则，每个分支讲清「技术路线 + 实现方式 + 代表性工作 + 效果」
核心进展客观认可中立评价和本文最相关的核心分支的贡献与优势
核心缺陷精准转折（全文立论核心句）用 but 转折，一句话精准戳中现有核心范式未被解决、且本文恰好能解决的核心缺陷
现有补充方案的不足讲清针对这个缺陷，已有哪些尝试，以及这些尝试为什么还是没解决根本问题，进一步强化本文创新的唯一性和必要性
本文创新自然引出收尾一句话讲清本文针对上述缺陷，提出了什么方法、解决了什么问题，完成整个 Related Work 的逻辑闭环

两个模块最终必须指向同一个核心研究空白，比如 CoT-VLA 中，两个模块最终都落脚到「现有 VLA 缺乏显式 CoT 推理能力，而已有的机器人 CoT 方案无法原生融入端到端 VLA 框架」，否则两个模块会变成独立的文献综述，无法论证本文创新的必要性「文献分层原则」：和本文相关性越低的工作，写的越靠前、越简略；和本文相关性越高、核心对比的 SOTA 基线，写的越靠后、越详细，主次分明才能突出本文的创新定位。 双主线必须闭环：两个模块最终必须指向同一个核心研究空白，不能各说各的，否则会被审稿人质疑「逻辑混乱，创新点不明确」

怎么入门新领域？5 分钟带你入门 3D 点云

Sun, 28 Jun 2026 02:30:00 +0000

你们入门一个新领域的时候都是干什么？

是先找个 XX带你入门网课看上半天吗

我觉得核心只有一个：抓住这个领域的核心问题

举个例子 VLA最终目的就是让机械臂动的好一点 LLM则是研究怎么让这个token往外蹦的好一点

而点云呢？

3D 点云通常由大量三维点组成，用来表示一个三维场景或物体 (x, y, z) 空间坐标 RGB 颜色信息
intensity 激光反射强度 normal 法向量
label 训练时的人为标注等等打包成一个点，上面的都是它所蕴涵的信息

LLM的输入很简单，就是文本通过tokenizer转换之后的token，这种token本身就有着顺序和逻辑

而点云，则是无序，不规则的数据类型

（同一个场景里，点的排列顺序换一下，场景本身并没有变。但神经网络通常需要固定输入顺序）

那么点云领域最核心的问题，就是

如何在不规则、无序、稀疏的 3D 点集上学习有效的空间特征？

这个特征可以指的是几何特征，它是平面还是曲面？也可以是整个区域的特征，这是个墙还是桌子？（都是平面），也可以是语义特征模型学会空间特征，则是理解三维世界，运用到实际生产中则是：实例分割，3D 目标检测，机器人抓取等等

了解一个领域的基本元素和核心问题之后，下一步就是看主流方法到底在解决什么？

为了避免泛讲空话，我们这里专精一种方法并以PTv3这篇24年oral来加深这个领域的理解

Point Transformer

既然是含有信息的点，我们可以直接暴力的输入点云送入Transformer，通过 attention 去看周围点，从而学习局部几何和上下文关系

对点云离散化处理后，PTv3 会先将连续坐标离散化成网格坐标，然后利用 Z-order 或 Hilbert curve 这类空间填充曲线，为每个点生成一个序列化编码。按照这个编码排序后，原本无序的 3D 点云就被组织成一个一维序列。，这样3D空间中遍布的点云便被压缩到了一个1维向量里面，还包含了原本的空间信息

和VIT类似，再对这样的序列做分割，变成一个个patch，然后在每个 patch内做 self-attention，也就是patch 内的点互相看，patch 外的点暂时不看很自然，那互相怎么交流呢？这里PTv3没有单纯的做自注意力，它在不同层使用不同的序列化顺序，排序方式一变，patch 的分组也会变化，于是原本不在同一个 patch 里的点，在下一层可能被分到同一个 patch，从而实现跨 patch 信息交互。

于此同时，位置编码也需要专属于3D点云的相对位置编码，这里PTv3是在 attention 前面加一个稀疏卷积层，用它注入局部几何位置信息

在做完self-attention之后，PTv3使用类似 U-Net 的结构，先Encoder：逐层下采样，提取大范围语义，后Decoder：逐层上采样，最后输出分类或者预测目标。在这，一个点可以是一个向量，融合了特征，送入分类头之后就可以进行实际的任务了。

网站动态能力测试

Sat, 27 Jun 2026 17:00:00 +0000

这篇文章用于测试站点增强功能：文章目录、代码复制、图片放大、Mermaid 图表和 LaTeX 数学公式。

代码复制

def hello_site(name: str) -> str:
    return f"Hello, {name}"

Mermaid 图表

flowchart LR A[写 Markdown] --> B[Hugo 构建] B --> C[Nginx 发布] C --> D[HTTPS 访问]

LaTeX 数学公式

行内公式：$E = mc^2$

块级公式：

$$ \mathcal{L}(\theta) = - \sum_{i=1}^{n} y_i \log p_\theta(x_i) $$

Tutorial on 33

AutoDL 下载 HF 数据集配置环境一次性跑通！稳定 15MB+

万字长文吐血整理：深度学习环境搭建笔记

通用

服务器

常见问题解决

如何写 intro？

1.开篇定调：领域背景 + 研究意义

2. 深入现状：现有方案 + 核心瓶颈（第 2-3 段）

To answer this question 3. 给出方案：本文核心方法概述（第 4 段）

4. 总结价值：主要贡献提炼（第 5 段）

如何写 related work？

怎么入门新领域？5 分钟带你入门 3D 点云

你们入门一个新领域的时候都是干什么？

我觉得 核心只有一个：抓住这个领域的核心问题

如何在不规则、无序、稀疏的 3D 点集上学习有效的空间特征？

Point Transformer

网站动态能力测试

代码复制

Mermaid 图表

LaTeX 数学公式

我觉得核心只有一个：抓住这个领域的核心问题