Thinking on 33

"COT" 是怎么在 VLA 里面火起来的？

Sun, 28 Jun 2026 02:30:00 +0000

自从具身大火之后，之前很多做LLM，VLM的人涌进来很多

VLA是建立在VLM的基础上的，早年的VLA很朴素，一般是VLM加个自回归生成的动作头，再用机器人数据微调一下既然是VLA从VLM发展过来的，那VLM上的method都应该在VLA上能够施展开来

于是，这波论文潮随之而来了

某种意义上，论文数量的涌现效应甚至比模型能力本身的提升更明显

COT-VLA（2503.22020）是最早引入COT的VLA，在输入之后，模型先生成未来图像帧作为视觉推理链，用视觉子目标刻画任务推进过程，再基于当前观测和预测子目标生成短动作序列但本质上，这仍然是在视觉/语义空间中进行中间推理 VLA 最终学习和执行的是动作，而未来图像、语言规划或其他中间 token 都只是动作生成的辅助条件。它们能提供一定的任务进展信息，但和真实的连续控制之间仍然存在 gap。因此，这类方法很快被进一步迭代

之后的做法还是在这个方向上改进，通过加其他模态或者换个空间来辅助动作模型的生成
可以分成这几部分：视觉 CoT：生成未来图像/子目标图像，再生成动作多模态 CoT：文本规划 + 视觉预测 + 动作预测串起来 latent CoT：不显式生成文字或图像，而是在 latent space 里推理未来动态并行 CoT：解决 CoT 推理太慢的问题动作 CoT：直接在 action space 里生成粗动作链/参考轨迹

当然，对上面方法进行排列组合之后就是新的COT了

我们可以针对VLM，让VLM生成显式/隐式的动作/视觉/文本的token，或者同时生成（并行），再用融合之后的token作为辅助输出动作当然，也可以单独拿出来一个视觉/运动/的expert来单独生成这些token，再进行多模态融合但是这些都是让模型通过多学或者多输出一些辅助token来帮助动作模型，这对于LLM是好的，因为LLM的涌现已经得到了惊人的力量可是 VLA还没有来到GPT时刻，COT本质上做的工作还是对动作进行辅助

如果动作学习本身还没有达到足够强的能力密度，那么再复杂的 CoT 也可能只是修饰输入，而不是改变模型本体

铁出现之前，用来铸剑的方法用在木棍上，再尖的木棍还是木棍

相比之下，另一条路线不是继续堆 CoT，而是直接研究模型如何更有效地学习动作。比如 PokeVLA 通过更系统的 embodied knowledge 预训练和 action expert；VLA-Adapter 关注如何把信息高效地桥接到 action space，用轻量 policy 和 Bridge Attention 减少对大模型和大规模机器人预训练的依赖。

这些工作在某种程度上说明，data 和 action learning 本身可能比单纯增加辅助 token 更关键。至少在我看来，VLM 更像是为动作学习提供语义、视觉和先验知识的工具，而不是 VLA 能力涌现的根本来源。

0.5B 超小模型是怎么打败 OpenVLA 7B 的？小模型的顶级 SOTA！

Sun, 28 Jun 2026 02:30:00 +0000

今天这篇 2025 年 9 月的论文，在 VLA 这个卷到飞起的领域里确实算有点 “老” 了 VLA-Adapter arxiv 编号：2509.09372 但是不妨它还是小模型之王！它的核心做法，一句话就能讲清：用一套由两个交叉注意力 + 一个自注意力构成的 Bridge Attention 桥接模块，实现了极致轻量化的 VLA 建模。

0.5B 骨干的 VLA-Adapter 平均成功率达97.3%，直接追平 14 倍参数量的 7B OpenVLA-OFT（97.1%）

在讲核心创新之前，我们得先搞懂当前 VLA 领域，VLM 对接动作空间的两种主流路径，也是这篇论文的核心研究对象：在当前VLA研究中，原始的VLM主要以两种方式连接action 1；Raw 特征（Raw latent）是直接从视觉 - 语言模型（VLM）中提取的原生视觉 - 语言表征，即VLM 对原始输入进行编码后，从指定层输出的特征向量，可从 VLM 的单层（浅层 / 中层 / 深层）或全层提取 2；ActionQuery 特征（ActionQuery latent）是为桥接 VL 与动作空间而额外引入的可学习查询向量，并且即使 VLM 骨干被冻结，ActionQuery 仍可从头训练（论文 H 部分）—— 因其并非 VLM 原生组件，而是插入序列的独立可学习 token，能独立适配动作空间

作者通过大量实验发现： 1；对于Raw 特征，中层 Raw 特征最有效，—— 深层 Raw 特征偏向语义信息，对动作生成帮助有限，并且全层 Raw 特征的性能优于单层，但是如果只使用Raw 特征表现不好，还需融合ActionQuery 2；论文通过消融实验确定64 个 ActionQuery token为最优—— 数量过少会导致信息聚合不足，过多则引入冗余，64 个能平衡性能与效率

flow matching 是怎么成为 VLA 的主流方法的？

Sun, 28 Jun 2026 02:30:00 +0000

为什么流匹配能成为vla的主流之一？一篇pi0带你看懂flow matching的vla架构！

在讲flow matching之前，我们先来回顾一下diffusion的思想—— 扩散模型的完整逻辑由正向扩散（加噪）和逆向扩散（去噪 / 生成) 两个互逆的过程组成。

拿扩散最拿手的图像生成领域来讲，对图像里的每个像素（比如原本值为 120 的红色通道像素，对应数轴上的「目标终点」），逐步添加高斯噪声，最终把清晰值完全破坏成纯随机噪声（比如变成 160，对应数轴上的「随机起点」），而逆向扩散过程便是训练一个神经网络，从带噪样本xt“中，预测出正向过程中添加的噪声ε-40，再通过迭代去噪，从纯噪声xt“还原出真实样本x1

扩散模型是 “预测加了多少噪声，再把噪声减掉”，是「逆向修正」；而流匹配则是 “直接规划这个像素从起点到终点的完整移动路径，告诉它每一步该走多快、往哪走”，是「正向规划」！ Flow Matching 的核心是向量场（速度场），记为：

$$v_\theta(x_t, t)$$

它告诉模型在任意时刻 t、任意位置 x，样本应该向哪个方向、以多大速度移动

$$ \frac{dx_t}{dt}=v_\theta(x_t, t)$$

意思就是，对于一个初始的随机样本160，得知在时间间隔h之后，它的速度则是

$$v_\theta(160, h)$$

在这个数轴上，样本在（0，255）之间运动，得知速度之后从160进入下一个位置，再次得到新的速度，不断迭代，直到到达正确的位置120！扩散模型的逻辑是「从随机噪声值 160，一步步减噪声还原：160→145→130→120」，每一步都要重新预测噪声，通常需要几十上百步；而流匹配的逻辑是「直接给这个像素规划了一条从初始噪声（比如 20）到目标值 120 的直线路径，每一步该走多少、走多快，都由速度场提前算好，20→40→60→…→120，全程只需要 2-10 步就能走完」。

Flow Matching 将生成过程建模为时间连续的确定性变换，定义时间区间 t∈[0,1]：

t=0：初始状态，对应易采样的先验分布 p0（通常为标准高斯噪声）；
t=1：目标状态，对应需要拟合的真实数据分布 p1（清晰图像 / 专家演示动作）。

为了简化训练，Flow Matching 给每个真实样本 x1 定义了一条最简单的线性插值路径：

xt=t⋅x1+(1−t)⋅x0

其中 x0 是从先验分布 p0 中采样的噪声。对时间 t 求导，就能得到这条路径对应的理想目标速度场： ut(xt∣x1)=x1−x0

这个理想速度场是全局恒定的！它和时间 t、中间样本 xt 完全无关 —— 这是 Flow Matching 损失无偏、训练比扩散更稳定、对超参数不敏感的核心数学根源。

pi0 原来早就被淘汰了？6 分钟速览 Discrete Diffusion 最新论文

Sun, 28 Jun 2026 02:30:00 +0000

先前的VLA现在主要分为三种类型，其中两个是基于原先的VLM架构，直接解耦出来，增加上一个MLP头或者连续扩散头，另一个则是传统的自回归类型。但是！将这种决策或生成模块置于主干网络之外，会破坏模型端到端的表征连续性与推理统一性，什么意思？就是这基本上就是两个网络，两个人自己玩自己的，还需要分别单独去训练，并且前面的网络训练完之后的结果，并不一定能完全运用到第二个网络之中。但今天我们要讲的这篇论文，它领先式地引入了第一个离散扩散模型VLA在统一 Transformer 架构内完成感知、指令对齐、动作解码全流程，完美解决表征割裂问题，能够支持保留预训练的结果，为后续扩展模型和数据集奠定强大基础。怎么做到的呢？一句话总结就是：先通过动作空间映射为离散的action tokens，再通过动作分块，将完整轨迹切成固定长度的chunk来实现离散扩散，同时，采用二次重掩码和自适应顺序解码两大神器，增加了解码的速度和稳定性。自适应顺序解码成功地做到了先易后难的机制，先都解码出当前轨迹里置信度高、简单（高频）的动作 token，固定下来，置信度比较低的token保持 masked，重新返回再解码，在多轮推理中，用前一轮中置信度较高的预测作为新的上下文，重新预测那些已经被覆盖掉的不确定token。

在Benchmark实验中 Discrete Diffusion在多项评测中领先头筹，在OOD 泛化实验实验中，对于采用语音增强和视觉增强两种扰动，这个模型准确率下降仅有1%出头。思路清爽、效果能打，给具身智能、机器人动作生成提供了超实用的新方向～

WAM和VLA，本质上都是在预测“状态”

Sun, 28 Jun 2026 02:30:00 +0000

PI0.5有一个很有意思的地方，他在动作头中，引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力
论文中把他们称为future token，即让模型想象一下“未来”

但是，这只是作者的声明，为什么就一定是future呢？

这只是融合了当前 VLM 表示，并不自动等价于预测未来状态

并且不会觉得相似吗？

这类 future token 与 WAM 中的 latent world token、以及 latent CoT VLA 中的 reasoning token，在功能上具有明显相似性：它们都试图在动作生成前构建一个中间状态表征。

机器人在移动的过程中，观测和机器人自身状态于世界的交互情况都会发生变化，在这期间，模型最重要的是预测变化的“状态”

WAM，VLA的关键，就在这些状态token里面

他们可以包括，机器人在运动之后变化的机器人自身状态，比如关节角度等等
也可以是外部的世界状态，包含了空间，接触，位置，等空间信息
也可是自身的思考状态等等，抓取，移动等等

LLM之所以能够取得成功，很大原因上是因为文本的监督信号特别密集，通过n平方的注意力，模型能够很好的在这二维世界中学会压缩已有的知识和语言，从而很好的再拟合，展现出惊人的力量。

而当进入对世界这种3维视角下的直接交互，VLM就只能变成了工具，对分成patch的图片和文本这些二维的信息进行处理，提供一些语义和空间上的理解帮助

但是，VLM的监督始终是静态的语义建模，而模型要做的是，是对这些变化世界的状态进行建模
最早的VLA模型通过简单的对图像和文本进行处理来预测动作，这可以work，但只能有过拟合这一条死路，模型压缩到的不是”世界“，而是对这些学习任务的模仿
WAM更能取得泛化能力的原因，正是来自于自身状态转移结构的稳定性和对世界的压缩，并不是早期VLA对单帧视觉的感受

有些VLA通过一些latent cot或者action cot实现了类似的想法，他们或多或少的增强了VLA的latent能力

VLA/WAM最终要做的便是预测这些状态 latent token，通过直接或者间接的生成对世界建模的latent token，再通过动作头融合来生成动作

看一个 token 是否是状态 token，不看名字，可以看四点：

第一，它是否接收当前观测和机器人状态信息。
第二，它是否作为 action generation 的条件。
第三，它是否被未来状态、未来视觉、动作结果或 reward 监督。
第四，它是否在 OOD / long-horizon / task-stage transition 上带来提升

如果第四成立，则说明他是真正的学习到了对世界的”压缩“，这才会使模型的拟合能力提升上来

最近的工作，LaST-R1尝试通过直接的对latent token进行显式的监督，并将DINOv3离线解码的latent作为监督信号，这样的latent cot能够实现这样的显式建模，这也是为什么他更有价值

我愿意将VLA和WAM以一种相似的看法统一起来，VLA 侧重从 latent state 解码动作，WAM 侧重预测 latent state 的演化；二者的交汇点是面向控制的 latent state transition，真正有效的 VLA/WAM 应该同时学习“当前状态是什么、未来状态如何变化、动作如何推动这种变化”

判断幻觉还在看 attention sink 吗？直接用 saliency 判断大模型幻觉

Sun, 28 Jun 2026 02:30:00 +0000

在研究大模型以及多模态模型的时候，我们通常使用做“信息流”——用 attention map 来观察 token 间依赖关系

也就是对于第P个生成位置，我们先给模型输入前P-1个 token，这里可能包括了提示词，系统提示词，图像token，已经输出的token等等。

之后预测第P个token，在每一层每个 attention head 中，都可以得到一个 attention matrix；其中第P行表示当前位置对所有历史 token 的注意力分布，若对生成序列中的每个位置Q重复这一分析，就可以得到该层上所有 token 对其历史上下文的 attention 分布，从而形成整张 attention heatmap。

我们可以很显然的得出来一张不同Q关于其他token的图像（多头结果通常会先聚合再归一化，以得到层级图）

但是，这样做真的能展现出大模型真正能用到了这个attention分数吗？

论文发现：对于生成错误的词汇，即一张棕色图像让大模型来描述，错误的输出blue这个词汇，blue的attention分数和其他token基本上无异—— 作者观察到，仅看 attention 分数时，幻觉词元与真实词元的模式差异并不稳定、也不显著为了更好的描述大模型是否真正使用了他们的attention，作者引入了”梯度“ 具体做法是：针对当前分析的目标 token，以其预测分布构造交叉熵，再将该 loss 反向传播到 attention matrix 上，得到 attention 对该 token 预测的敏感度梯度。

他们提出saliency——定义 saliency = attention × gradient，用来衡量不同历史 token 对当前目标 token 预测的实际贡献强度。作者在 Qwen2-VL-7B 与 LLaVA-1.5-7B 上进一步验证：真实词元与幻觉词元在 saliency pattern 上存在统计显著差异，说明 hallucination 伴随可量化的上下文依赖退化现象，而 saliency 分析能够有效揭示这一点

后面论文提出了两个实用的方法来缓解幻觉，这里不再过多说明，大家感兴趣再看 1：SGRS，在解码阶段基于 saliency 自适应阈值拒绝低 grounding 的候选 token；重要性在于它把分析信号直接转化成 test-time decoding policy，实现无需再训练的主动式 hallucination 预防。 2：LocoRE，通过增强下一步 query 对最近输出 token 的注意力来维持局部上下文连贯性；重要性在于它非常轻量、即插即用，而且明确针对论文识别出的“context forgetting”瓶颈，而不是泛泛地重分配视觉注意力。

看论文不知道在看什么？一张图表讲清楚现在 VLA 的主流方向

Sun, 28 Jun 2026 02:30:00 +0000

上海交大学生手册曾经提到过一句话，让我记忆犹新： ”做科研最重要的，不是你在做什么，而是你知道正在做的是什么“ 整天看论文，翻来覆去，只知道这篇论文做了什么但是到了下一篇论文，却又手足无措？脑子混乱，思路不清晰，这正是不清楚技术路线的表现。今天，一张图表带你看清 VLA的主流方向。今后再看论文，直接在大脑中对应图表，问自己几个问题：这是属于哪条技术路线？他是对哪些地方进行了改进？里面有什么好的方法值得我学习吗？不知道从何下起，思路不清晰的问题以后就没有了。看了论文，也一定能确保有所长进了~ 关注我，带你每天更新VLA论文速读/论文经验

让机器人学会选择输出快！慢！动作

Sun, 28 Jun 2026 02:30:00 +0000

论文：HiPolicy 2604.06067 核心 Motivation：主流的模仿学习（DP、ACT、DP3 ），一般都是采用固定频率的动作分块论文这里对频率分类

相同分块尺寸下，低频分块能捕捉长时序任务依赖，但缺乏细粒度闭环控制的时间分辨率；
高频分块能实现精细的动作调整，但长时序依赖的建模能力严重不足。

很显然单频动作输出完全不符合人类真实的运动控制逻辑那这篇工作是怎么做的？举个最直观的例子：机械臂抓取桌上的水杯

机械臂从原点伸向水杯上方：这是目标明确的大段运动，轨迹是确定的，属于长周期的阶段级动作，完全可以用低频动作输出 —— 用低频编码「从原点→杯子上方」的高层意图，天然适配长时序规划；
机械臂对位、旋转、夹取水杯：这是强依赖实时反馈的精细控制，只需要关注最近的观测上下文，需要快速闭环响应，用高频动作输出，实现精准的位姿调整。怎么实现的？HiPolicy 比较暴力，直接一次前向推理同时输出多个频率的动作分块，再通过熵引导的机制，自适应选最合适的频率执行。

以 M=3 个频率（5Hz、10Hz、15Hz）为例，所有频率的观测 / 动作都对齐到一个时间，之后不同频率的动作通过分层特征融合实现信息协同在推理之前，根据频率对输入进行采样

5Hz（每 200ms 采样 1 次）：[o₁, o₃, o₅, o₇] → 低采样密度，抓长时序的任务阶段变化，给全局规划做支撑
10Hz（每 100ms 采样 1 次）：[o₁, o₂, o₃, o₄, o₅, o₆, o₇] → 中等采样密度，做常规动作调整，衔接全局规划和精细控制
15Hz（每66ms 采样 1 次）：[o₁,o₂,o₃,o₄,o₅,o₆,o₇,o₈,o₉,o₁₀] → 高采样密度，保留细粒度的实时环境和本体状态，给精细闭环控制用对应观测频率，框架一次推理就同步出 3 个频率的完整动作块，各司其职：
5Hz 低频动作→ 编码「阶段 1→阶段 2→阶段 3」的高层任务意图
10Hz 中频动作 → 输出中等粒度的动作调整
15Hz 高频动作 → 输出高时间分辨率的精细动作计算每个动作维度的均值与标准差 μj=mean(aj1,aj2,…,ajN) 第j个动作维度的期望 σj=std(aj1,aj2,…,ajN) 第j个动作维度的标准差
基于标准差估计动作熵标准差大 → 熵值高 → 预测不确定性高标准差小 → 熵值低 → 预测结果稳定
根据熵值选择执行频率
- 熵值低（动作稳定）→ 执行高频动作块（精细控制）
- 熵值高（动作不确定）→ 执行低频动作块（靠长期规划保证稳定性）

题外话：之前看过一篇帖子讲这种分类,我也特别赞同输出快慢动作这种概念，VLA实现这种应该也会实现大幅加速和稳定

Thinking on 33

"COT" 是怎么在 VLA 里面火起来的？

0.5B 超小模型是怎么打败 OpenVLA 7B 的？小模型的顶级 SOTA！

flow matching 是怎么成为 VLA 的主流方法的？

为什么流匹配能成为vla的主流之一？一篇pi0带你看懂flow matching的vla架构！

pi0 原来早就被淘汰了？6 分钟速览 Discrete Diffusion 最新论文

WAM和VLA，本质上都是在预测“状态”

但是，这只是作者的声明，为什么就一定是future呢？

并且不会觉得相似吗？

WAM，VLA的关键，就在这些状态token里面

看一个 token 是否是 状态 token，不看名字，可以看四点：

如果第四成立，则说明他是真正的学习到了对世界的”压缩“，这才会使模型的拟合能力提升上来

判断幻觉还在看 attention sink 吗？直接用 saliency 判断大模型幻觉

看论文不知道在看什么？一张图表讲清楚现在 VLA 的主流方向

让机器人学会选择输出快！慢！动作

看一个 token 是否是状态 token，不看名字，可以看四点：