<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>WAM on 33</title>
    <link>https://syl.moe5200.com/tags/wam/</link>
    <description>Recent content in WAM on 33</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 33</copyright>
    <lastBuildDate>Sun, 28 Jun 2026 02:30:00 +0000</lastBuildDate>
    <atom:link href="https://syl.moe5200.com/tags/wam/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>WAM和VLA，本质上都是在预测“状态”</title>
      <link>https://syl.moe5200.com/posts/vla-wam/wam-vla-state-token/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/wam-vla-state-token/</guid>
      <description>&lt;p&gt;PI0.5有一个很有意思的地方，他在动作头中，引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力&lt;br&gt;
论文中把他们称为future token，即让模型想象一下“未来”&lt;/p&gt;
&lt;h2 id=&#34;但是这只是作者的声明为什么就一定是future呢&#34;&gt;但是，这只是作者的声明，为什么就一定是future呢？&lt;/h2&gt;
&lt;p&gt;这只是融合了当前 VLM 表示，并不自动等价于预测未来状态&lt;/p&gt;
&lt;h2 id=&#34;并且不会觉得相似吗&#34;&gt;并且不会觉得相似吗？&lt;/h2&gt;
&lt;p&gt;这类 future token 与 WAM 中的 latent world token、以及 latent CoT VLA 中的 reasoning token，在功能上具有明显相似性：它们都试图在动作生成前构建一个中间状态表征。&lt;/p&gt;
&lt;p&gt;机器人在移动的过程中，观测和机器人自身状态于世界的交互情况都会发生变化，在这期间，模型最重要的是预测变化的“状态”&lt;/p&gt;
&lt;h2 id=&#34;wamvla的关键就在这些状态token里面&#34;&gt;WAM，VLA的关键，就在这些状态token里面&lt;/h2&gt;
&lt;p&gt;他们可以包括，机器人在运动之后变化的机器人自身状态，比如关节角度等等&lt;br&gt;
也可以是外部的世界状态，包含了空间，接触，位置，等空间信息&lt;br&gt;
也可是自身的思考状态等等，抓取，移动等等&lt;/p&gt;
&lt;p&gt;LLM之所以能够取得成功，很大原因上是因为文本的监督信号特别密集，通过n平方的注意力，模型能够很好的在这二维世界中学会压缩已有的知识和语言，从而很好的再拟合，展现出惊人的力量。&lt;/p&gt;
&lt;p&gt;而当进入对世界这种3维视角下的直接交互，VLM就只能变成了工具，对分成patch的图片和文本这些二维的信息进行处理，提供一些语义和空间上的理解帮助&lt;/p&gt;
&lt;p&gt;但是，VLM的监督始终是静态的语义建模，而模型要做的是，是对这些变化世界的状态进行建模&lt;br&gt;
最早的VLA模型通过简单的对图像和文本进行处理来预测动作，这可以work，但只能有过拟合这一条死路，模型压缩到的不是”世界“，而是对这些学习任务的模仿&lt;br&gt;
WAM更能取得泛化能力的原因，正是来自于自身状态转移结构的稳定性和对世界的压缩，并不是早期VLA对单帧视觉的感受&lt;/p&gt;
&lt;p&gt;有些VLA通过一些latent cot或者action cot实现了类似的想法，他们或多或少的增强了VLA的latent能力&lt;/p&gt;
&lt;p&gt;VLA/WAM最终要做的便是预测这些状态 latent token，通过直接或者间接的生成对世界建模的latent token，再通过动作头融合来生成动作&lt;/p&gt;
&lt;h2 id=&#34;看一个-token-是否是-状态-token不看名字可以看四点&#34;&gt;看一个 token 是否是 状态 token，不看名字，可以看四点：&lt;/h2&gt;
&lt;p&gt;第一，它是否接收当前观测和机器人状态信息。&lt;br&gt;
第二，它是否作为 action generation 的条件。&lt;br&gt;
第三，它是否被未来状态、未来视觉、动作结果或 reward 监督。&lt;br&gt;
第四，它是否在 OOD / long-horizon / task-stage transition 上带来提升&lt;/p&gt;
&lt;h2 id=&#34;如果第四成立则说明他是真正的学习到了对世界的压缩这才会使模型的拟合能力提升上来&#34;&gt;如果第四成立，则说明他是真正的学习到了对世界的”压缩“，这才会使模型的拟合能力提升上来&lt;/h2&gt;
&lt;p&gt;最近的工作，LaST-R1尝试通过直接的对latent token进行显式的监督，并将DINOv3离线解码的latent作为监督信号，这样的latent cot能够实现这样的显式建模，这也是为什么他更有价值&lt;/p&gt;
&lt;p&gt;我愿意将VLA和WAM以一种相似的看法统一起来，VLA 侧重从 latent state 解码动作，WAM 侧重预测 latent state 的演化；二者的交汇点是面向控制的 latent state transition，真正有效的 VLA/WAM 应该同时学习“当前状态是什么、未来状态如何变化、动作如何推动这种变化”&lt;/p&gt;</description>
    </item>
    <item>
      <title>VLA / WAM 研究索引</title>
      <link>https://syl.moe5200.com/posts/vla-wam/overview/</link>
      <pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/overview/</guid>
      <description>&lt;p&gt;这个栏目用于整理 VLA / WAM 相关资料，包括多模态理解、动作生成、机器人控制和系统集成。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
