Latent State

PI0.5有一个很有意思的地方，他在动作头中，引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力论文中把他们称为future token，即让模型想象一下“未来” 但是，这只是作者的声明，为什么就一定是future呢？这只是融合了当前 VLM 表示，并不自动等价于预测未来状态并且不会觉得相似吗？这类 future token 与 WAM 中的 latent world token、以及 latent CoT VLA 中的 reasoning token，在功能上具有明显相似性：它们都试图在动作生成前构建一个中间状态表征。机器人在移动的过程中，观测和机器人自身状态于世界的交互情况都会发生变化，在这期间，模型最重要的是预测变化的“状态” WAM，VLA的关键，就在这些状态token里面他们可以包括，机器人在运动之后变化的机器人自身状态，比如关节角度等等也可以是外部的世界状态，包含了空间，接触，位置，等空间信息也可是自身的思考状态等等，抓取，移动等等 LLM之所以能够取得成功，很大原因上是因为文本的监督信号特别密集，通过n平方的注意力，模型能够很好的在这二维世界中学会压缩已有的知识和语言，从而很好的再拟合，展现出惊人的力量。而当进入对世界这种3维视角下的直接交互，VLM就只能变成了工具，对分成patch的图片和文本这些二维的信息进行处理，提供一些语义和空间上的理解帮助但是，VLM的监督始终是静态的语义建模，而模型要做的是，是对这些变化世界的状态进行建模最早的VLA模型通过简单的对图像和文本进行处理来预测动作，这可以work，但只能有过拟合这一条死路，模型压缩到的不是”世界“，而是对这些学习任务的模仿 WAM更能取得泛化能力的原因，正是来自于自身状态转移结构的稳定性和对世界的压缩，并不是早期VLA对单帧视觉的感受有些VLA通过一些latent cot或者action cot实现了类似的想法，他们或多或少的增强了VLA的latent能力 VLA/WAM最终要做的便是预测这些状态 latent token，通过直接或者间接的生成对世界建模的latent token，再通过动作头融合来生成动作看一个 token 是否是状态 token，不看名字，可以看四点：第一，它是否接收当前观测和机器人状态信息。第二，它是否作为 action generation 的条件。第三，它是否被未来状态、未来视觉、动作结果或 reward 监督。第四，它是否在 OOD / long-horizon / task-stage transition 上带来提升如果第四成立，则说明他是真正的学习到了对世界的”压缩“，这才会使模型的拟合能力提升上来最近的工作，LaST-R1尝试通过直接的对latent token进行显式的监督，并将DINOv3离线解码的latent作为监督信号，这样的latent cot能够实现这样的显式建模，这也是为什么他更有价值我愿意将VLA和WAM以一种相似的看法统一起来，VLA 侧重从 latent state 解码动作，WAM 侧重预测 latent state 的演化；二者的交汇点是面向控制的 latent state transition，真正有效的 VLA/WAM 应该同时学习“当前状态是什么、未来状态如何变化、动作如何推动这种变化” ...