flow matching 是怎么成为 VLA 的主流方法的?

为什么流匹配能成为vla的主流之一?一篇pi0带你看懂flow matching的vla架构! 在讲flow matching之前,我们先来回顾一下diffusion的思想—— 扩散模型的完整逻辑由正向扩散(加噪)和逆向扩散(去噪 / 生成) 两个互逆的过程组成。 拿扩散最拿手的图像生成领域来讲,对图像里的每个像素(比如原本值为 120 的红色通道像素,对应数轴上的「目标终点」),逐步添加高斯噪声,最终把清晰值完全破坏成纯随机噪声(比如变成 160,对应数轴上的「随机起点」),而逆向扩散过程便是训练一个神经网络,从带噪样本xt​“中,预测出正向过程中添加的噪声ε-40,再通过迭代去噪,从纯噪声xt“​还原出真实样本x1​ 扩散模型是 “预测加了多少噪声,再把噪声减掉”,是「逆向修正」;而流匹配则是 “直接规划这个像素从起点到终点的完整移动路径,告诉它每一步该走多快、往哪走”,是「正向规划」! Flow Matching 的核心是向量场(速度场),记为: $$v_\theta(x_t, t)$$ 它告诉模型在任意时刻 t、任意位置 x,样本应该向哪个方向、以多大速度移动 $$ \frac{dx_t}{dt}=v_\theta(x_t, t)$$ 意思就是,对于一个初始的随机样本160,得知在时间间隔h之后,它的速度则是 $$v_\theta(160, h)$$ 在这个数轴上,样本在(0,255)之间运动,得知速度之后从160进入下一个位置,再次得到新的速度,不断迭代,直到到达正确的位置120! 扩散模型的逻辑是「从随机噪声值 160,一步步减噪声还原:160→145→130→120」,每一步都要重新预测噪声,通常需要几十上百步; 而流匹配的逻辑是「直接给这个像素规划了一条从初始噪声(比如 20)到目标值 120 的直线路径,每一步该走多少、走多快,都由速度场提前算好,20→40→60→…→120,全程只需要 2-10 步就能走完」。 Flow Matching 将生成过程建模为时间连续的确定性变换,定义时间区间 t∈[0,1]: t=0:初始状态,对应易采样的先验分布 p0​(通常为标准高斯噪声); t=1:目标状态,对应需要拟合的真实数据分布 p1​(清晰图像 / 专家演示动作)。 为了简化训练,Flow Matching 给每个真实样本 x1​ 定义了一条最简单的线性插值路径: xt​=t⋅x1​+(1−t)⋅x0​ 其中 x0​ 是从先验分布 p0​ 中采样的噪声。 对时间 t 求导,就能得到这条路径对应的理想目标速度场: ut​(xt​∣x1​)=x1​−x0​ 这个理想速度场是全局恒定的!它和时间 t、中间样本 xt​ 完全无关 —— 这是 Flow Matching 损失无偏、训练比扩散更稳定、对超参数不敏感的核心数学根源。 ...

2026-06-28 · 1 min · 154 words · 33

pi0 原来早就被淘汰了?6 分钟速览 Discrete Diffusion 最新论文

先前的VLA现在主要分为三种类型,其中两个是基于原先的VLM架构,直接解耦出来,增加上一个MLP头或者连续扩散头,另一个则是传统的自回归类型。但是!将这种决策或生成模块置于主干网络之外,会破坏模型端到端的表征连续性与推理统一性,什么意思?就是这基本上就是两个网络,两个人自己玩自己的,还需要分别单独去训练,并且前面的网络训练完之后的结果,并不一定能完全运用到第二个网络之中。但今天我们要讲的这篇论文,它领先式地引入了第一个离散扩散模型VLA在统一 Transformer 架构内完成感知、指令对齐、动作解码全流程,完美解决表征割裂问题,能够支持保留预训练的结果,为后续扩展模型和数据集奠定强大基础。 怎么做到的呢?一句话总结就是:先通过动作空间映射为离散的action tokens,再通过动作分块,将完整轨迹切成固定长度的chunk来实现离散扩散,同时,采用二次重掩码和自适应顺序解码两大神器,增加了解码的速度和稳定性。 自适应顺序解码成功地做到了先易后难的机制,先都解码出当前轨迹里置信度高、简单(高频)的动作 token,固定下来,置信度比较低的token保持 masked,重新返回再解码,在多轮推理中,用前一轮中置信度较高的预测作为新的上下文,重新预测那些已经被覆盖掉的不确定token。 在Benchmark实验中 Discrete Diffusion在多项评测中领先头筹,在OOD 泛化实验实验中,对于采用语音增强和视觉增强两种扰动,这个模型准确率下降仅有1%出头。 思路清爽、效果能打, 给具身智能、机器人动作生成提供了超实用的新方向~

2026-06-28 · 1 min · 14 words · 33