WAM和VLA,本质上都是在预测“状态”

PI0.5有一个很有意思的地方,他在动作头中,引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力 论文中把他们称为future token,即让模型想象一下“未来” 但是,这只是作者的声明,为什么就一定是future呢? 这只是融合了当前 VLM 表示,并不自动等价于预测未来状态 并且不会觉得相似吗? 这类 future token 与 WAM 中的 latent world token、以及 latent CoT VLA 中的 reasoning token,在功能上具有明显相似性:它们都试图在动作生成前构建一个中间状态表征。 机器人在移动的过程中,观测和机器人自身状态于世界的交互情况都会发生变化,在这期间,模型最重要的是预测变化的“状态” WAM,VLA的关键,就在这些状态token里面 他们可以包括,机器人在运动之后变化的机器人自身状态,比如关节角度等等 也可以是外部的世界状态,包含了空间,接触,位置,等空间信息 也可是自身的思考状态等等,抓取,移动等等 LLM之所以能够取得成功,很大原因上是因为文本的监督信号特别密集,通过n平方的注意力,模型能够很好的在这二维世界中学会压缩已有的知识和语言,从而很好的再拟合,展现出惊人的力量。 而当进入对世界这种3维视角下的直接交互,VLM就只能变成了工具,对分成patch的图片和文本这些二维的信息进行处理,提供一些语义和空间上的理解帮助 但是,VLM的监督始终是静态的语义建模,而模型要做的是,是对这些变化世界的状态进行建模 最早的VLA模型通过简单的对图像和文本进行处理来预测动作,这可以work,但只能有过拟合这一条死路,模型压缩到的不是”世界“,而是对这些学习任务的模仿 WAM更能取得泛化能力的原因,正是来自于自身状态转移结构的稳定性和对世界的压缩,并不是早期VLA对单帧视觉的感受 有些VLA通过一些latent cot或者action cot实现了类似的想法,他们或多或少的增强了VLA的latent能力 VLA/WAM最终要做的便是预测这些状态 latent token,通过直接或者间接的生成对世界建模的latent token,再通过动作头融合来生成动作 看一个 token 是否是 状态 token,不看名字,可以看四点: 第一,它是否接收当前观测和机器人状态信息。 第二,它是否作为 action generation 的条件。 第三,它是否被未来状态、未来视觉、动作结果或 reward 监督。 第四,它是否在 OOD / long-horizon / task-stage transition 上带来提升 如果第四成立,则说明他是真正的学习到了对世界的”压缩“,这才会使模型的拟合能力提升上来 最近的工作,LaST-R1尝试通过直接的对latent token进行显式的监督,并将DINOv3离线解码的latent作为监督信号,这样的latent cot能够实现这样的显式建模,这也是为什么他更有价值 我愿意将VLA和WAM以一种相似的看法统一起来,VLA 侧重从 latent state 解码动作,WAM 侧重预测 latent state 的演化;二者的交汇点是面向控制的 latent state transition,真正有效的 VLA/WAM 应该同时学习“当前状态是什么、未来状态如何变化、动作如何推动这种变化” ...

2026-06-28 · 1 min · 80 words · 33