pi0 原来早就被淘汰了?6 分钟速览 Discrete Diffusion 最新论文

先前的VLA现在主要分为三种类型,其中两个是基于原先的VLM架构,直接解耦出来,增加上一个MLP头或者连续扩散头,另一个则是传统的自回归类型。但是!将这种决策或生成模块置于主干网络之外,会破坏模型端到端的表征连续性与推理统一性,什么意思?就是这基本上就是两个网络,两个人自己玩自己的,还需要分别单独去训练,并且前面的网络训练完之后的结果,并不一定能完全运用到第二个网络之中。但今天我们要讲的这篇论文,它领先式地引入了第一个离散扩散模型VLA在统一 Transformer 架构内完成感知、指令对齐、动作解码全流程,完美解决表征割裂问题,能够支持保留预训练的结果,为后续扩展模型和数据集奠定强大基础。 怎么做到的呢?一句话总结就是:先通过动作空间映射为离散的action tokens,再通过动作分块,将完整轨迹切成固定长度的chunk来实现离散扩散,同时,采用二次重掩码和自适应顺序解码两大神器,增加了解码的速度和稳定性。 自适应顺序解码成功地做到了先易后难的机制,先都解码出当前轨迹里置信度高、简单(高频)的动作 token,固定下来,置信度比较低的token保持 masked,重新返回再解码,在多轮推理中,用前一轮中置信度较高的预测作为新的上下文,重新预测那些已经被覆盖掉的不确定token。 在Benchmark实验中 Discrete Diffusion在多项评测中领先头筹,在OOD 泛化实验实验中,对于采用语音增强和视觉增强两种扰动,这个模型准确率下降仅有1%出头。 思路清爽、效果能打, 给具身智能、机器人动作生成提供了超实用的新方向~

2026-06-28 · 1 min · 14 words · 33