PI0.5有一个很有意思的地方,他在动作头中,引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力
论文中把他们称为future token,即让模型想象一下“未来”
但是,这只是作者的声明,为什么就一定是future呢?
这只是融合了当前 VLM 表示,并不自动等价于预测未来状态
并且不会觉得相似吗?
这类 future token 与 WAM 中的 latent world token、以及 latent CoT VLA 中的 reasoning token,在功能上具有明显相似性:它们都试图在动作生成前构建一个中间状态表征。
机器人在移动的过程中,观测和机器人自身状态于世界的交互情况都会发生变化,在这期间,模型最重要的是预测变化的“状态”
WAM,VLA的关键,就在这些状态token里面
他们可以包括,机器人在运动之后变化的机器人自身状态,比如关节角度等等
也可以是外部的世界状态,包含了空间,接触,位置,等空间信息
也可是自身的思考状态等等,抓取,移动等等
LLM之所以能够取得成功,很大原因上是因为文本的监督信号特别密集,通过n平方的注意力,模型能够很好的在这二维世界中学会压缩已有的知识和语言,从而很好的再拟合,展现出惊人的力量。
而当进入对世界这种3维视角下的直接交互,VLM就只能变成了工具,对分成patch的图片和文本这些二维的信息进行处理,提供一些语义和空间上的理解帮助
但是,VLM的监督始终是静态的语义建模,而模型要做的是,是对这些变化世界的状态进行建模
最早的VLA模型通过简单的对图像和文本进行处理来预测动作,这可以work,但只能有过拟合这一条死路,模型压缩到的不是”世界“,而是对这些学习任务的模仿
WAM更能取得泛化能力的原因,正是来自于自身状态转移结构的稳定性和对世界的压缩,并不是早期VLA对单帧视觉的感受
有些VLA通过一些latent cot或者action cot实现了类似的想法,他们或多或少的增强了VLA的latent能力
VLA/WAM最终要做的便是预测这些状态 latent token,通过直接或者间接的生成对世界建模的latent token,再通过动作头融合来生成动作
看一个 token 是否是 状态 token,不看名字,可以看四点:
第一,它是否接收当前观测和机器人状态信息。
第二,它是否作为 action generation 的条件。
第三,它是否被未来状态、未来视觉、动作结果或 reward 监督。
第四,它是否在 OOD / long-horizon / task-stage transition 上带来提升
如果第四成立,则说明他是真正的学习到了对世界的”压缩“,这才会使模型的拟合能力提升上来
最近的工作,LaST-R1尝试通过直接的对latent token进行显式的监督,并将DINOv3离线解码的latent作为监督信号,这样的latent cot能够实现这样的显式建模,这也是为什么他更有价值
我愿意将VLA和WAM以一种相似的看法统一起来,VLA 侧重从 latent state 解码动作,WAM 侧重预测 latent state 的演化;二者的交汇点是面向控制的 latent state transition,真正有效的 VLA/WAM 应该同时学习“当前状态是什么、未来状态如何变化、动作如何推动这种变化”
最后,我没有做实验来证明,上面的观点可以算是童言无忌。。。有些观点过于绝对,同时我的表达和逻辑很有问题,部分使用了GPT来润色,
评论