<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>3D Vision on 33</title>
    <link>https://syl.moe5200.com/tags/3d-vision/</link>
    <description>Recent content in 3D Vision on 33</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 33</copyright>
    <lastBuildDate>Sun, 28 Jun 2026 02:30:00 +0000</lastBuildDate>
    <atom:link href="https://syl.moe5200.com/tags/3d-vision/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>怎么入门新领域？5 分钟带你入门 3D 点云</title>
      <link>https://syl.moe5200.com/posts/deep-learning/intro-to-3d-point-cloud/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/deep-learning/intro-to-3d-point-cloud/</guid>
      <description>&lt;h3 id=&#34;你们入门一个新领域的时候都是干什么&#34;&gt;你们入门一个新领域的时候都是干什么？&lt;/h3&gt;
&lt;p&gt;是先找个 XX带你入门 网课看上半天吗&lt;/p&gt;
&lt;h3 id=&#34;我觉得-核心只有一个抓住这个领域的核心问题&#34;&gt;我觉得 核心只有一个：抓住这个领域的核心问题&lt;/h3&gt;
&lt;p&gt;举个例子
VLA最终目的就是让机械臂动的好一点
LLM则是研究怎么让这个token往外蹦的好一点&lt;/p&gt;
&lt;p&gt;而点云呢？&lt;/p&gt;
&lt;p&gt;3D 点云通常由大量三维点组成，用来表示一个三维场景或物体
(x, y, z) 空间坐标
RGB 颜色信息&lt;br&gt;
intensity 激光反射强度
normal 法向量&lt;br&gt;
label 训练时的人为标注
等等打包成一个点，上面的都是它所蕴涵的信息&lt;/p&gt;
&lt;p&gt;LLM的输入很简单，就是文本通过tokenizer转换之后的token，这种token本身就有着顺序和逻辑&lt;/p&gt;
&lt;p&gt;而点云，则是无序，不规则的数据类型&lt;/p&gt;
&lt;p&gt;（同一个场景里，点的排列顺序换一下，场景本身并没有变。但神经网络通常需要固定输入顺序）&lt;/p&gt;
&lt;p&gt;那么点云领域最核心的问题，就是&lt;/p&gt;
&lt;h3 id=&#34;如何在不规则无序稀疏的-3d-点集上学习有效的空间特征&#34;&gt;如何在不规则、无序、稀疏的 3D 点集上学习有效的空间特征？&lt;/h3&gt;
&lt;p&gt;这个特征可以指的是几何特征，它是平面还是曲面？也可以是整个区域的特征，这是个墙还是桌子？（都是平面），也可以是语义特征
模型学会空间特征，则是理解三维世界，运用到实际生产中则是：实例分割，3D 目标检测，机器人抓取等等&lt;/p&gt;
&lt;p&gt;了解一个领域的基本元素和核心问题之后，下一步就是看主流方法到底在解决什么？&lt;/p&gt;
&lt;p&gt;为了避免泛讲空话，我们这里专精一种方法并以PTv3这篇24年oral来加深这个领域的理解&lt;/p&gt;
&lt;h2 id=&#34;point-transformer&#34;&gt;Point Transformer&lt;/h2&gt;
&lt;p&gt;既然是含有信息的点，我们可以直接暴力的输入点云送入Transformer，通过 attention 去看周围点，从而学习局部几何和上下文关系&lt;/p&gt;
&lt;p&gt;对点云离散化处理后，PTv3 会先将连续坐标离散化成网格坐标，然后利用 Z-order 或 Hilbert curve 这类空间填充曲线，为每个点生成一个序列化编码。按照这个编码排序后，原本无序的 3D 点云就被组织成一个一维序列。，这样3D空间中遍布的点云便被压缩到了一个1维向量里面，还包含了原本的空间信息&lt;/p&gt;
&lt;p&gt;和VIT类似，再对这样的序列做分割，变成一个个patch，然后在每个 patch内做 self-attention，也就是patch 内的点互相看 ，patch 外的点暂时不看
很自然，那互相怎么交流呢？
这里PTv3没有单纯的做自注意力，它在不同层使用不同的序列化顺序，排序方式一变，patch 的分组也会变化，于是原本不在同一个 patch 里的点，在下一层可能被分到同一个 patch，从而实现跨 patch 信息交互。&lt;/p&gt;
&lt;p&gt;于此同时，位置编码也需要专属于3D点云的相对位置编码，这里PTv3是在 attention 前面加一个稀疏卷积层，用它注入局部几何位置信息&lt;/p&gt;
&lt;p&gt;在做完self-attention之后，PTv3使用类似 U-Net 的结构，先Encoder：逐层下采样，提取大范围语义 ，后Decoder：逐层上采样，最后输出分类或者预测目标。在这，一个点可以是一个向量，融合了特征，送入分类头之后就可以进行实际的任务了。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
