<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Pi0 on 33</title>
    <link>https://syl.moe5200.com/tags/pi0/</link>
    <description>Recent content in Pi0 on 33</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 33</copyright>
    <lastBuildDate>Sun, 28 Jun 2026 02:30:00 +0000</lastBuildDate>
    <atom:link href="https://syl.moe5200.com/tags/pi0/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>flow matching 是怎么成为 VLA 的主流方法的？</title>
      <link>https://syl.moe5200.com/posts/vla-wam/flow-matching-vla-mainstream/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/flow-matching-vla-mainstream/</guid>
      <description>&lt;h2 id=&#34;为什么流匹配能成为vla的主流之一一篇pi0带你看懂flow-matching的vla架构&#34;&gt;为什么流匹配能成为vla的主流之一？一篇pi0带你看懂flow matching的vla架构！&lt;/h2&gt;
&lt;p&gt;在讲flow matching之前，我们先来回顾一下diffusion的思想——
扩散模型的完整逻辑由正向扩散（加噪）&lt;strong&gt;和&lt;/strong&gt;逆向扩散（去噪 / 生成) 两个互逆的过程组成。&lt;/p&gt;
&lt;p&gt;拿扩散最拿手的图像生成领域来讲，对图像里的每个像素（比如原本值为 120 的红色通道像素，对应数轴上的「目标终点」），逐步添加高斯噪声，最终把清晰值完全破坏成纯随机噪声（比如变成 160，对应数轴上的「随机起点」），而逆向扩散过程便是训练一个神经网络，从带噪样本xt​“中，预测出正向过程中添加的噪声ε-40，再通过迭代去噪，从纯噪声xt“​还原出真实样本x1​&lt;/p&gt;
&lt;p&gt;扩散模型是 “预测加了多少噪声，再把噪声减掉”，是「逆向修正」；而流匹配则是 “直接规划这个像素从起点到终点的完整移动路径，告诉它每一步该走多快、往哪走”，是「正向规划」！
Flow Matching 的核心是&lt;strong&gt;向量场（速度场）&lt;/strong&gt;，记为：
&lt;/p&gt;
$$v_\theta(x_t, t)$$&lt;p&gt;
它告诉模型在任意时刻 t、任意位置 x，样本应该向哪个方向、以多大速度移动&lt;/p&gt;
$$ \frac{dx_t}{dt}=v_\theta(x_t, t)$$&lt;p&gt;
意思就是，对于一个初始的随机样本160，得知在时间间隔h之后，它的速度则是&lt;/p&gt;
$$v_\theta(160, h)$$&lt;p&gt;
在这个数轴上，样本在（0，255）之间运动，得知速度之后从160进入下一个位置，再次得到新的速度，不断迭代，直到到达正确的位置120！
扩散模型的逻辑是「从随机噪声值 160，一步步减噪声还原：160→145→130→120」，每一步都要重新预测噪声，通常需要几十上百步；
而流匹配的逻辑是「直接给这个像素规划了一条从初始噪声（比如 20）到目标值 120 的直线路径，每一步该走多少、走多快，都由速度场提前算好，20→40→60→…→120，全程只需要 2-10 步就能走完」。&lt;/p&gt;
&lt;p&gt;Flow Matching 将生成过程建模为&lt;strong&gt;时间连续的确定性变换&lt;/strong&gt;，定义时间区间 t∈[0,1]：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;t=0：初始状态，对应&lt;strong&gt;易采样的先验分布&lt;/strong&gt; p0​（通常为标准高斯噪声）；&lt;/li&gt;
&lt;li&gt;t=1：目标状态，对应&lt;strong&gt;需要拟合的真实数据分布&lt;/strong&gt; p1​（清晰图像 / 专家演示动作）。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;为了简化训练，Flow Matching 给每个真实样本 x1​ 定义了一条&lt;strong&gt;最简单的线性插值路径&lt;/strong&gt;：&lt;/p&gt;
&lt;p&gt;xt​=t⋅x1​+(1−t)⋅x0​&lt;/p&gt;
&lt;p&gt;其中 x0​ 是从先验分布 p0​ 中采样的噪声。
对时间 t 求导，就能得到这条路径对应的&lt;strong&gt;理想目标速度场&lt;/strong&gt;：
ut​(xt​∣x1​)=x1​−x0​&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;这个理想速度场是&lt;strong&gt;全局恒定的&lt;/strong&gt;！它和时间 t、中间样本 xt​ 完全无关 —— 这是 Flow Matching 损失&lt;strong&gt;无偏、训练比扩散更稳定、对超参数不敏感&lt;/strong&gt;的核心数学根源。&lt;/p&gt;</description>
    </item>
    <item>
      <title>pi0 原来早就被淘汰了？6 分钟速览 Discrete Diffusion 最新论文</title>
      <link>https://syl.moe5200.com/posts/vla-wam/discrete-diffusion-vla/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/discrete-diffusion-vla/</guid>
      <description>&lt;p&gt;先前的VLA现在主要分为三种类型，其中两个是基于原先的VLM架构，直接解耦出来，增加上一个MLP头或者连续扩散头，另一个则是传统的自回归类型。但是！将这种决策或生成模块置于主干网络之外，会破坏模型&lt;strong&gt;端到端的表征连续性与推理统一性&lt;/strong&gt;，什么意思？就是这基本上就是两个网络，两个人自己玩自己的，还需要分别单独去训练，并且前面的网络训练完之后的结果，并不一定能完全运用到第二个网络之中。但今天我们要讲的这篇论文，它领先式地引入了第一个离散扩散模型VLA在&lt;strong&gt;统一 Transformer 架构&lt;/strong&gt;内完成感知、指令对齐、动作解码全流程，完美解决表征割裂问题，能够支持保留预训练的结果，为后续扩展模型和数据集奠定强大基础。
怎么做到的呢？一句话总结就是：先通过动作空间映射为离散的action tokens，再通过动作分块，将完整轨迹切成固定长度的chunk来实现离散扩散，同时，采用二次重掩码和自适应顺序解码两大神器，增加了解码的速度和稳定性。
自适应顺序解码成功地做到了先易后难的机制，先都解码出当前轨迹里置信度高、简单（高频）的动作 token，固定下来，置信度比较低的token保持 masked，重新返回再解码，在多轮推理中，用前一轮中置信度较高的预测作为新的上下文，重新预测那些已经被覆盖掉的不确定token。&lt;/p&gt;
&lt;p&gt;在Benchmark实验中&lt;img loading=&#34;lazy&#34; src=&#34;https://syl.moe5200.com/posts/vla-wam/discrete-diffusion-vla/file-20260224102104586.jpg&#34;&gt;
Discrete Diffusion在多项评测中领先头筹，在&lt;strong&gt;OOD 泛化实验&lt;/strong&gt;实验中，对于采用语音增强和视觉增强两种扰动，这个模型准确率下降仅有1%出头。
思路清爽、效果能打，
给具身智能、机器人动作生成提供了超实用的新方向～&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
