<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Tutorial on 33</title>
    <link>https://syl.moe5200.com/categories/tutorial/</link>
    <description>Recent content in Tutorial on 33</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 33</copyright>
    <lastBuildDate>Sun, 28 Jun 2026 02:30:00 +0000</lastBuildDate>
    <atom:link href="https://syl.moe5200.com/categories/tutorial/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>AutoDL 下载 HF 数据集配置环境一次性跑通！稳定 15MB&#43;</title>
      <link>https://syl.moe5200.com/posts/engineering/autodl-hf-download-hfd/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/engineering/autodl-hf-download-hfd/</guid>
      <description>&lt;p&gt;在AutoDL的服务器上，我在下载数据集和模型权重的时候踩了特别多的坑。
我尝试用过云盘传
也试过下载在本地，再通过服务器上传
全部都失败了！不是上传特别慢就是数据集太多，太散，太难传。
最后，我找到了解决方法的最终版本，下载速度稳定15MB+&lt;/p&gt;
&lt;p&gt;一：创建conda环境
conda create -n diffusionvl python=3.10 -y
conda activate diffusionvl
具体包的安装暂且跳过，我们核心讲下载数据集的部分
二：配置huggingface环境
这里有非常多的版本，有用脚本的，有用Python的，还有用CLI，这里我只推荐一个 hfd （足足浪费了两天时间）
首先下载
wget &lt;a href=&#34;https://hf-mirror.com/hfd/hfd.sh&#34;&gt;https://hf-mirror.com/hfd/hfd.sh&lt;/a&gt;
chmod a+x hfd.sh
安装hfd.sh依赖（aria2c）
apt update &amp;amp;&amp;amp; apt install -y aria2
设置环境变量
export HF_ENDPOINT=https://hf-mirror.com&lt;/p&gt;
&lt;p&gt;最关键的一步，加速! (16线程+分块下载)
export HFD_DOWNLOADER=&amp;ldquo;aria2c -x 16 -s 16 -k 1M&amp;rdquo;&lt;/p&gt;
&lt;p&gt;三：下载数据集（下载模型也同理）
这里我以我下载的数据集为例：
执行hfd.sh下载LLaVA-Pretrain数据集
/root/autodl-tmp/DiffusionVL/data/hfd.sh liuhaotian/LLaVA-Pretrain &amp;ndash;dataset \ &amp;ndash;local-dir /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain&lt;/p&gt;
&lt;p&gt;前面是我下载的地址hfd.sh ，中间为数据集的名字，后面是我要下载数据集的位置（当然可以直接丢给gpt，告诉它仿照这一行命令）&lt;/p&gt;
&lt;p&gt;如果中间碰到什么问题，可以关掉窗口，再次执行这个命令，可以断点续传&lt;/p&gt;
&lt;p&gt;解压
unzip -q /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain/images.zip \ -d /root/autodl-tmp/DiffusionVL/data/LLaVA-Pretrain/images&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;https://syl.moe5200.com/posts/engineering/autodl-hf-download-hfd/file-20260309221335909.jpg&#34;&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>万字长文吐血整理：深度学习环境搭建笔记</title>
      <link>https://syl.moe5200.com/posts/engineering/deep-learning-environment-setup/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/engineering/deep-learning-environment-setup/</guid>
      <description>&lt;p&gt;环境作为一个新手劝退，老手浪费时间的东西
就算已经完全熟练配置环境也会遇到各种问题&lt;/p&gt;
&lt;p&gt;本人短时间内经历了笔记本/服务器等四到五次完整环境的搭建，从CUDA torch版本不适配-到数据集/模型太大上传太慢，再到没有科学上网安装不了git包等等各种问题
每次配置环境都需要花费3-4个小时的时间，为避免后续再次浪费时间（和算力）整理了自己学习以来配置环境的经验
个人感觉还是涵盖了大部分情况的，后续有新的方法会继续更新笔记，如有好的方法虚心求教~&lt;/p&gt;
&lt;h2 id=&#34;通用&#34;&gt;通用&lt;/h2&gt;
&lt;p&gt;一&amp;raquo;初始配置
配置CUDA
配置显卡驱动
配置miniconda/miniforge3/anconda（这里推荐miniconda）
配置清华源（如果apt更新慢这里也可以配置清华源）
创建conda环境&lt;/p&gt;
&lt;p&gt;二&amp;raquo;配置conda环境/UV环境
1：对于复现论文/复现别人项目
在pyproject.toml中将与torch相关的注释掉
根据自身CUDA版本安装torch
（50系显卡使用cu128）
根据你的项目pip install -e .
跑训练/推理脚本 缺什么补什么
2：对于自己的项目
根据自身CUDA版本安装torch
（50系显卡使用cu128）
用什么安装什么
三&amp;raquo;&amp;gt;下载数据集/模型
统一推荐使用hfd镜像+aria2c下载，速度能稳定15MB跑满带宽
其他的方式都尝试过，最终不如这个
wget hfd.sh下载脚本
sudo apt install aria2
chmod a+x hfd.sh
export HF_ENDPOINT=镜像网站
export HFD_DOWNLOADER=&amp;ldquo;aria2c -x 16 -s 16 -k 1M&amp;rdquo;
你的脚本地址  下载模型/数据集参数  下载地址&lt;/p&gt;
&lt;h2 id=&#34;服务器&#34;&gt;服务器&lt;/h2&gt;
&lt;p&gt;对于服务器，优先在本地做好代码和环境，后续直接打包上传，也可以镜像整体迁移
1：本地-&amp;gt;服务器
1使用filezilla等SFTP协议的上传工具，注意使用高宽带网络（热点）校园网慢点
2将所有的代码上传，不要上传数据集/模型权重
3数据集/模型权重直接使用通用里面的下载命令下载到服务器（上传会慢）
4配置conda环境
2：直接服务器（没有魔法的话）
1先在本地git clone好，然后上传
2在本地下载好魔法安装不了的环境，然后上传服务器安装
2下载数据集/模型权重
3配置conda环境&lt;/p&gt;
&lt;h2 id=&#34;常见问题解决&#34;&gt;常见问题解决&lt;/h2&gt;
&lt;p&gt;1：GPU无法使用—&amp;gt;torch版本不对
print(torch.cuda.is_available())确定能不能使用
记住自己是什么torch版本，配置环境先配置好torch
2：下载速度巨慢/连接超时！！！
对于模型/数据集：使用我上述的方法
对于环境包：配置清华源，不行使用aria2c下载安装，再不行找一个有魔法的机子再上传
3：版本不适配/报错
根据自己的项目先确定好自己到底要用什么！
不要后面不断改把环境搞脏了
先确定好环境-针对能改的包进行更新
每次环境跑通后，记录：
pip freeze &amp;gt; requirements_freeze.txt
conda env export &amp;gt; environment.yaml
4：&lt;/p&gt;</description>
    </item>
    <item>
      <title>如何写 intro？</title>
      <link>https://syl.moe5200.com/posts/researching/how-to-write-introduction/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/researching/how-to-write-introduction/</guid>
      <description>&lt;h2 id=&#34;1开篇定调领域背景--研究意义&#34;&gt;1.开篇定调：领域背景 + 研究意义&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;从宏观领域突破切入：以 “多模态 LLM 的重大突破” 为引子，说明其对下游研究（机器人系统）的推动作用。&lt;/li&gt;
&lt;li&gt;定义核心研究对象：明确 VLA（Vision-Language-Action）模型的定位 ——“指令驱动机器人操作的新解决方案”。&lt;/li&gt;
&lt;li&gt;引用权威文献支撑：嵌入最新相关研究（2024-2025 年文献），增强领域时效性和可信度。
相比于相关工作写的要长一点&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-深入现状现有方案--核心瓶颈第-2-3-段&#34;&gt;2. 深入现状：现有方案 + 核心瓶颈（第 2-3 段）&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;作用&lt;/strong&gt;：客观阐述现有研究的进展，重点突出未解决的问题，为本文研究铺垫必要性。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;写作技巧&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;先讲现有方案的通用逻辑：说明当前 VLA 模型的典型流程（大规模具身数据预训练 VLM→Policy 网络生成动作），引用关键数据集和方法（如 Open X-Embodiment、DROID）。&lt;/li&gt;
&lt;li&gt;用 “However” 转折引出瓶颈：聚焦 3 个核心痛点 —— 依赖大尺度 VLM、训练 / 微调效率低、GPU 显存消耗高、推理吞吐量低。&lt;/li&gt;
&lt;li&gt;数据 / 图表辅助强化：通过 Figure 1（对比表格）直观展示瓶颈（如 7B 模型 vs 0.5B 模型的显存、吞吐量差异），让问题更具体。&lt;/li&gt;
&lt;li&gt;提出核心研究问题：以设问句形式点出本文要解决的关键问题，且强调问题的 “稀缺性”（“most essential but rarely discussed question”）。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;to-answer-this-question-3-给出方案本文核心方法概述第-4-段&#34;&gt;To answer this question 3. 给出方案：本文核心方法概述（第 4 段）&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;作用&lt;/strong&gt;：简要介绍本文的解决方案，回应前文提出的问题，让读者快速把握研究核心。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;写作技巧&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;明确方案名称与定位：直接点出 “VLA-Adapter” 是 “新型桥接范式”（novel bridging paradigm）。&lt;/li&gt;
&lt;li&gt;提炼方案核心逻辑：说明方案如何解决问题 ——“系统探索不同条件对动作生成的影响→设计带 Bridge Attention 的轻量级 Policy 模块→自主注入最优 VL 条件到动作空间”。&lt;/li&gt;
&lt;li&gt;突出方案核心优势：用关键指标初步展示价值（“tiny-scale backbone”“high performance”“fast inference speed”），引发读者兴趣。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;4-总结价值主要贡献提炼第-5-段&#34;&gt;4. 总结价值：主要贡献提炼（第 5 段）&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;作用&lt;/strong&gt;：明确本文的学术价值和创新点，让读者清晰了解研究的增量贡献。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;写作技巧&lt;/strong&gt;：
&lt;ul&gt;
&lt;li&gt;分点但不生硬：用 “・” 引导 3-4 个核心贡献，每个贡献聚焦一个维度（创新点、方法价值、实验验证）。&lt;/li&gt;
&lt;li&gt;突出 “创新性” 和 “实用性”：
&lt;ul&gt;
&lt;li&gt;创新点：强调 “首次系统分析”“全新范式” 等稀缺性表述；&lt;/li&gt;
&lt;li&gt;方法价值：说明方案如何解决瓶颈（“降低对大模型的依赖”“弥合模态鸿沟”）；&lt;/li&gt;
&lt;li&gt;实验价值：强调结果的全面性（“模拟 + 真实场景”“高成功率 + 低成本”）。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    <item>
      <title>如何写 related work？</title>
      <link>https://syl.moe5200.com/posts/researching/how-to-write-related-work/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/researching/how-to-write-related-work/</guid>
      <description>&lt;p&gt;技术移植型
A为本范式，B为新技术
related work通常有两个段落：
一，跨领域技术溯源（B 范式→本文 A 领域）&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;开篇定义句：一句话讲清 B 范式的核心本质、起源领域、解决的核心问题&lt;/li&gt;
&lt;li&gt;原生领域奠基性进展   讲 B 范式在起源领域的开山工作、核心实现方式、被严格验证的效果，只用 1-2 篇最经典的引文，不堆砌文献 （方式，例子，效果）&lt;/li&gt;
&lt;li&gt;跨领域平滑过渡   讲 B 范式从原生领域拓展到和 A 领域相邻的领域，用了什么实现方式、代表性工作、取得的效果，完成「B→中间领域→A 领域」的过渡，避免逻辑跳脱&lt;/li&gt;
&lt;li&gt;B 范式迁移到    聚焦本文的研究场景 A，讲 B 范式已经在 A 领域有哪些应用、实现方式、代表性工作、进展&lt;/li&gt;
&lt;li&gt;精准锚定局限收尾   一句话戳中「B→A 的现有工作的核心缺陷」，且这个缺陷&lt;strong&gt;必须和本文的创新点一一对应&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;本文的核心范式A
&lt;strong&gt;核心目标&lt;/strong&gt;：梳理本文所属赛道的研究现状，客观认可前人工作的核心贡献，精准锚定未被解决的核心缺口，最终论证「本文的创新恰好填补了这个核心缺口」，和模块一形成闭环&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;范式起源与核心定义  一句话讲清本文所属的核心范式 A 是什么、解决 A 领域的什么核心问题、奠基性的研究背景&lt;/li&gt;
&lt;li&gt;主流分支分层梳理  按技术路线把 A 领域的工作分成 2-3 个分支，严格遵循「&lt;strong&gt;远相关分支先写、简略写；近相关分支后写、详细写&lt;/strong&gt;」的原则，每个分支讲清「技术路线 + 实现方式 + 代表性工作 + 效果」&lt;/li&gt;
&lt;li&gt;核心进展客观认可 中立评价和本文最相关的核心分支的贡献与优势&lt;/li&gt;
&lt;li&gt;核心缺陷精准转折（全文立论核心句）用 but 转折，一句话精准戳中现有核心范式&lt;strong&gt;未被解决、且本文恰好能解决的核心缺陷&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;现有补充方案的不足 讲清针对这个缺陷，已有哪些尝试，以及这些尝试为什么还是没解决根本问题，进一步强化本文创新的唯一性和必要性&lt;/li&gt;
&lt;li&gt;本文创新自然引出收尾  一句话讲清本文针对上述缺陷，提出了什么方法、解决了什么问题，完成整个 Related Work 的逻辑闭环&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;两个模块最终必须指向&lt;strong&gt;同一个核心研究空白&lt;/strong&gt;，比如 CoT-VLA 中，两个模块最终都落脚到「现有 VLA 缺乏显式 CoT 推理能力，而已有的机器人 CoT 方案无法原生融入端到端 VLA 框架」，否则两个模块会变成独立的文献综述，无法论证本文创新的必要性
「文献分层原则」：和本文相关性越低的工作，写的越靠前、越简略；和本文相关性越高、核心对比的 SOTA 基线，写的越靠后、越详细，主次分明才能突出本文的创新定位。
&lt;strong&gt;双主线必须闭环&lt;/strong&gt;：两个模块最终必须指向同一个核心研究空白，不能各说各的，否则会被审稿人质疑「逻辑混乱，创新点不明确」&lt;/p&gt;</description>
    </item>
    <item>
      <title>怎么入门新领域？5 分钟带你入门 3D 点云</title>
      <link>https://syl.moe5200.com/posts/deep-learning/intro-to-3d-point-cloud/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/deep-learning/intro-to-3d-point-cloud/</guid>
      <description>&lt;h3 id=&#34;你们入门一个新领域的时候都是干什么&#34;&gt;你们入门一个新领域的时候都是干什么？&lt;/h3&gt;
&lt;p&gt;是先找个 XX带你入门 网课看上半天吗&lt;/p&gt;
&lt;h3 id=&#34;我觉得-核心只有一个抓住这个领域的核心问题&#34;&gt;我觉得 核心只有一个：抓住这个领域的核心问题&lt;/h3&gt;
&lt;p&gt;举个例子
VLA最终目的就是让机械臂动的好一点
LLM则是研究怎么让这个token往外蹦的好一点&lt;/p&gt;
&lt;p&gt;而点云呢？&lt;/p&gt;
&lt;p&gt;3D 点云通常由大量三维点组成，用来表示一个三维场景或物体
(x, y, z) 空间坐标
RGB 颜色信息&lt;br&gt;
intensity 激光反射强度
normal 法向量&lt;br&gt;
label 训练时的人为标注
等等打包成一个点，上面的都是它所蕴涵的信息&lt;/p&gt;
&lt;p&gt;LLM的输入很简单，就是文本通过tokenizer转换之后的token，这种token本身就有着顺序和逻辑&lt;/p&gt;
&lt;p&gt;而点云，则是无序，不规则的数据类型&lt;/p&gt;
&lt;p&gt;（同一个场景里，点的排列顺序换一下，场景本身并没有变。但神经网络通常需要固定输入顺序）&lt;/p&gt;
&lt;p&gt;那么点云领域最核心的问题，就是&lt;/p&gt;
&lt;h3 id=&#34;如何在不规则无序稀疏的-3d-点集上学习有效的空间特征&#34;&gt;如何在不规则、无序、稀疏的 3D 点集上学习有效的空间特征？&lt;/h3&gt;
&lt;p&gt;这个特征可以指的是几何特征，它是平面还是曲面？也可以是整个区域的特征，这是个墙还是桌子？（都是平面），也可以是语义特征
模型学会空间特征，则是理解三维世界，运用到实际生产中则是：实例分割，3D 目标检测，机器人抓取等等&lt;/p&gt;
&lt;p&gt;了解一个领域的基本元素和核心问题之后，下一步就是看主流方法到底在解决什么？&lt;/p&gt;
&lt;p&gt;为了避免泛讲空话，我们这里专精一种方法并以PTv3这篇24年oral来加深这个领域的理解&lt;/p&gt;
&lt;h2 id=&#34;point-transformer&#34;&gt;Point Transformer&lt;/h2&gt;
&lt;p&gt;既然是含有信息的点，我们可以直接暴力的输入点云送入Transformer，通过 attention 去看周围点，从而学习局部几何和上下文关系&lt;/p&gt;
&lt;p&gt;对点云离散化处理后，PTv3 会先将连续坐标离散化成网格坐标，然后利用 Z-order 或 Hilbert curve 这类空间填充曲线，为每个点生成一个序列化编码。按照这个编码排序后，原本无序的 3D 点云就被组织成一个一维序列。，这样3D空间中遍布的点云便被压缩到了一个1维向量里面，还包含了原本的空间信息&lt;/p&gt;
&lt;p&gt;和VIT类似，再对这样的序列做分割，变成一个个patch，然后在每个 patch内做 self-attention，也就是patch 内的点互相看 ，patch 外的点暂时不看
很自然，那互相怎么交流呢？
这里PTv3没有单纯的做自注意力，它在不同层使用不同的序列化顺序，排序方式一变，patch 的分组也会变化，于是原本不在同一个 patch 里的点，在下一层可能被分到同一个 patch，从而实现跨 patch 信息交互。&lt;/p&gt;
&lt;p&gt;于此同时，位置编码也需要专属于3D点云的相对位置编码，这里PTv3是在 attention 前面加一个稀疏卷积层，用它注入局部几何位置信息&lt;/p&gt;
&lt;p&gt;在做完self-attention之后，PTv3使用类似 U-Net 的结构，先Encoder：逐层下采样，提取大范围语义 ，后Decoder：逐层上采样，最后输出分类或者预测目标。在这，一个点可以是一个向量，融合了特征，送入分类头之后就可以进行实际的任务了。&lt;/p&gt;</description>
    </item>
    <item>
      <title>网站动态能力测试</title>
      <link>https://syl.moe5200.com/posts/engineering/dynamic-features-demo/</link>
      <pubDate>Sat, 27 Jun 2026 17:00:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/engineering/dynamic-features-demo/</guid>
      <description>&lt;p&gt;这篇文章用于测试站点增强功能：文章目录、代码复制、图片放大、Mermaid 图表和 LaTeX 数学公式。&lt;/p&gt;
&lt;h2 id=&#34;代码复制&#34;&gt;代码复制&lt;/h2&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;hello_site&lt;/span&gt;(name: str) &lt;span style=&#34;color:#f92672&#34;&gt;-&amp;gt;&lt;/span&gt; str:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;f&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;Hello, &lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;{&lt;/span&gt;name&lt;span style=&#34;color:#e6db74&#34;&gt;}&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;mermaid-图表&#34;&gt;Mermaid 图表&lt;/h2&gt;
&lt;div class=&#34;mermaid&#34;&gt;
flowchart LR
    A[写 Markdown] --&amp;gt; B[Hugo 构建]
    B --&amp;gt; C[Nginx 发布]
    C --&amp;gt; D[HTTPS 访问]
&lt;/div&gt;
&lt;h2 id=&#34;latex-数学公式&#34;&gt;LaTeX 数学公式&lt;/h2&gt;
&lt;p&gt;行内公式：$E = mc^2$&lt;/p&gt;
&lt;p&gt;块级公式：&lt;/p&gt;
$$
\mathcal{L}(\theta) = - \sum_{i=1}^{n} y_i \log p_\theta(x_i)
$$</description>
    </item>
  </channel>
</rss>
