WAM和VLA，本质上都是在预测“状态”

PI0.5有一个很有意思的地方，他在动作头中，引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力
论文中把他们称为future token，即让模型想象一下“未来”

但是，这只是作者的声明，为什么就一定是future呢？

这只是融合了当前 VLM 表示，并不自动等价于预测未来状态

并且不会觉得相似吗？

这类 future token 与 WAM 中的 latent world token、以及 latent CoT VLA 中的 reasoning token，在功能上具有明显相似性：它们都试图在动作生成前构建一个中间状态表征。

机器人在移动的过程中，观测和机器人自身状态于世界的交互情况都会发生变化，在这期间，模型最重要的是预测变化的“状态”

WAM，VLA的关键，就在这些状态token里面

他们可以包括，机器人在运动之后变化的机器人自身状态，比如关节角度等等
也可以是外部的世界状态，包含了空间，接触，位置，等空间信息
也可是自身的思考状态等等，抓取，移动等等

LLM之所以能够取得成功，很大原因上是因为文本的监督信号特别密集，通过n平方的注意力，模型能够很好的在这二维世界中学会压缩已有的知识和语言，从而很好的再拟合，展现出惊人的力量。

而当进入对世界这种3维视角下的直接交互，VLM就只能变成了工具，对分成patch的图片和文本这些二维的信息进行处理，提供一些语义和空间上的理解帮助

但是，VLM的监督始终是静态的语义建模，而模型要做的是，是对这些变化世界的状态进行建模
最早的VLA模型通过简单的对图像和文本进行处理来预测动作，这可以work，但只能有过拟合这一条死路，模型压缩到的不是”世界“，而是对这些学习任务的模仿
WAM更能取得泛化能力的原因，正是来自于自身状态转移结构的稳定性和对世界的压缩，并不是早期VLA对单帧视觉的感受

有些VLA通过一些latent cot或者action cot实现了类似的想法，他们或多或少的增强了VLA的latent能力

VLA/WAM最终要做的便是预测这些状态 latent token，通过直接或者间接的生成对世界建模的latent token，再通过动作头融合来生成动作

看一个 token 是否是状态 token，不看名字，可以看四点：

第一，它是否接收当前观测和机器人状态信息。
第二，它是否作为 action generation 的条件。
第三，它是否被未来状态、未来视觉、动作结果或 reward 监督。
第四，它是否在 OOD / long-horizon / task-stage transition 上带来提升

如果第四成立，则说明他是真正的学习到了对世界的”压缩“，这才会使模型的拟合能力提升上来

最近的工作，LaST-R1尝试通过直接的对latent token进行显式的监督，并将DINOv3离线解码的latent作为监督信号，这样的latent cot能够实现这样的显式建模，这也是为什么他更有价值

我愿意将VLA和WAM以一种相似的看法统一起来，VLA 侧重从 latent state 解码动作，WAM 侧重预测 latent state 的演化；二者的交汇点是面向控制的 latent state transition，真正有效的 VLA/WAM 应该同时学习“当前状态是什么、未来状态如何变化、动作如何推动这种变化”

最后，我没有做实验来证明，上面的观点可以算是童言无忌。。。有些观点过于绝对，同时我的表达和逻辑很有问题，部分使用了GPT来润色，

但是，这只是作者的声明，为什么就一定是future呢？#

并且不会觉得相似吗？#

WAM，VLA的关键，就在这些状态token里面#

看一个 token 是否是 状态 token，不看名字，可以看四点：#

如果第四成立，则说明他是真正的学习到了对世界的”压缩“，这才会使模型的拟合能力提升上来#

评论

但是，这只是作者的声明，为什么就一定是future呢？

并且不会觉得相似吗？

WAM，VLA的关键，就在这些状态token里面

看一个 token 是否是状态 token，不看名字，可以看四点：

如果第四成立，则说明他是真正的学习到了对世界的”压缩“，这才会使模型的拟合能力提升上来