自从具身大火之后,之前很多做LLM,VLM的人涌进来很多

VLA是建立在VLM的基础上的,早年的VLA很朴素,一般是VLM加个自回归生成的动作头,再用机器人数据微调一下 既然是VLA从VLM发展过来的,那VLM上的method都应该在VLA上能够施展开来

于是,这波论文潮随之而来了

某种意义上,论文数量的涌现效应甚至比模型能力本身的提升更明显

COT-VLA(2503.22020)是最早引入COT的VLA,在输入之后,模型先生成未来图像帧作为视觉推理链,用视觉子目标刻画任务推进过程,再基于当前观测和预测子目标生成短动作序列 但本质上,这仍然是在视觉/语义空间中进行中间推理 VLA 最终学习和执行的是动作,而未来图像、语言规划或其他中间 token 都只是动作生成的辅助条件。它们能提供一定的任务进展信息,但和真实的连续控制之间仍然存在 gap。因此,这类方法很快被进一步迭代

之后的做法还是在这个方向上改进,通过加其他模态或者换个空间来辅助动作模型的生成
可以分成这几部分: 视觉 CoT:生成未来图像/子目标图像,再生成动作 多模态 CoT:文本规划 + 视觉预测 + 动作预测串起来 latent CoT:不显式生成文字或图像,而是在 latent space 里推理未来动态 并行 CoT:解决 CoT 推理太慢的问题 动作 CoT:直接在 action space 里生成粗动作链/参考轨迹

当然,对上面方法进行排列组合之后就是新的COT了

我们可以针对VLM,让VLM生成显式/隐式的动作/视觉/文本的token,或者同时生成(并行),再用融合之后的token作为辅助输出动作 当然,也可以单独拿出来一个视觉/运动/的expert来单独生成这些token,再进行多模态融合 但是 这些都是让模型通过多学或者多输出一些辅助token来帮助动作模型,这对于LLM是好的,因为LLM的涌现已经得到了惊人的力量 可是 VLA还没有来到GPT时刻,COT本质上做的工作还是对动作进行辅助

如果动作学习本身还没有达到足够强的能力密度,那么再复杂的 CoT 也可能只是修饰输入,而不是改变模型本体

铁出现之前,用来铸剑的方法用在木棍上,再尖的木棍还是木棍

相比之下,另一条路线不是继续堆 CoT,而是直接研究模型如何更有效地学习动作。比如 PokeVLA 通过更系统的 embodied knowledge 预训练和 action expert;VLA-Adapter 关注如何把信息高效地桥接到 action space,用轻量 policy 和 Bridge Attention 减少对大模型和大规模机器人预训练的依赖。

这些工作在某种程度上说明,data 和 action learning 本身可能比单纯增加辅助 token 更关键。 至少在我看来,VLM 更像是为动作学习提供语义、视觉和先验知识的工具,而不是 VLA 能力涌现的根本来源。

本篇使用少量LLM润色 我承认GPT写的好 我的表达很差 后续挑战不用LLM,正在努力改进