0.5B 超小模型是怎么打败 OpenVLA 7B 的？小模型的顶级 SOTA！

今天这篇 2025 年 9 月的论文，在 VLA 这个卷到飞起的领域里确实算有点 “老” 了 VLA-Adapter arxiv 编号：2509.09372 但是不妨它还是小模型之王！它的核心做法，一句话就能讲清：用一套由两个交叉注意力 + 一个自注意力构成的 Bridge Attention 桥接模块，实现了极致轻量化的 VLA 建模。

0.5B 骨干的 VLA-Adapter 平均成功率达97.3%，直接追平 14 倍参数量的 7B OpenVLA-OFT（97.1%）

在讲核心创新之前，我们得先搞懂当前 VLA 领域，VLM 对接动作空间的两种主流路径，也是这篇论文的核心研究对象：在当前VLA研究中，原始的VLM主要以两种方式连接action 1；Raw 特征（Raw latent）是直接从视觉 - 语言模型（VLM）中提取的原生视觉 - 语言表征，即VLM 对原始输入进行编码后，从指定层输出的特征向量，可从 VLM 的单层（浅层 / 中层 / 深层）或全层提取 2；ActionQuery 特征（ActionQuery latent）是为桥接 VL 与动作空间而额外引入的可学习查询向量，并且即使 VLM 骨干被冻结，ActionQuery 仍可从头训练（论文 H 部分）—— 因其并非 VLM 原生组件，而是插入序列的独立可学习 token，能独立适配动作空间

作者通过大量实验发现： 1；对于Raw 特征，中层 Raw 特征最有效，—— 深层 Raw 特征偏向语义信息，对动作生成帮助有限，并且全层 Raw 特征的性能优于单层，但是如果只使用Raw 特征表现不好，还需融合ActionQuery 2；论文通过消融实验确定64 个 ActionQuery token为最优—— 数量过少会导致信息聚合不足，过多则引入冗余，64 个能平衡性能与效率

我的理解是，VLM 就像一根树枝，给它加一个动作生成头，本质上就是「嫁接」。而作者在反复试验中发现：想让嫁接的新枝长得好，不能只在树皮表面拼接，要在树枝上切开一个精准的豁口（用对中层 + 全层 VLM 特征），再给新枝做一个能严丝合缝嵌进去的锥型接口（从头训练的 AQ 特征），这时候将两者拼接，则能使新的分支更加适应原本的”树枝“

作者根据这些，直接对attention进行改进—— 他们设计了一个可学习门控参数 Ratio g，对于VLM输出的R特征（Raw）和AQ特征（ActionQuery）进行选择性融合在原始的VLM头上，新增加的Policy 的 Bridge Attention 通过三个并行分支，实现视觉、语言、机器人状态的统一聚合：

分支 1（Cross-Attention）：通过门控调节Raw特征（前文实验验证的全层 Raw 特征）注入，补充复杂任务所需的细粒度信息。
分支 2（Cross-Attention）：将 VLM 输出的动作专用特征（AQ）与机器人状态直接融合，这是动作生成的核心依据；
分支 3（Self-Attention）：捕捉动作序列自身的时序依赖，也就是整个输出的token；三个分支的输出拼接后，经多头注意力计算和 FFN 处理，最终生成贴合机器人实际状态、符合视觉 - 语言指令的动作。

这套堪称「精准嫁接」的漂亮工作，没有盲目堆参数量、堆机器人预训练数据，而是把 VLM 每一层的视觉 - 语言价值榨干用透，打破了「VLA 必须靠大模型、大数据才能出效果」的行业惯性。这也是为什么这个 0.5B 的小模型，时隔半年依然是 tiny 级 VLA 标杆的核心原因。

评论