VLA-Adapter

今天这篇 2025 年 9 月的论文，在 VLA 这个卷到飞起的领域里确实算有点 “老” 了 VLA-Adapter arxiv 编号：2509.09372 但是不妨它还是小模型之王！它的核心做法，一句话就能讲清：用一套由两个交叉注意力 + 一个自注意力构成的 Bridge Attention 桥接模块，实现了极致轻量化的 VLA 建模。 0.5B 骨干的 VLA-Adapter 平均成功率达97.3%，直接追平 14 倍参数量的 7B OpenVLA-OFT（97.1%）在讲核心创新之前，我们得先搞懂当前 VLA 领域，VLM 对接动作空间的两种主流路径，也是这篇论文的核心研究对象：在当前VLA研究中，原始的VLM主要以两种方式连接action 1；Raw 特征（Raw latent）是直接从视觉 - 语言模型（VLM）中提取的原生视觉 - 语言表征，即VLM 对原始输入进行编码后，从指定层输出的特征向量，可从 VLM 的单层（浅层 / 中层 / 深层）或全层提取 2；ActionQuery 特征（ActionQuery latent）是为桥接 VL 与动作空间而额外引入的可学习查询向量，并且即使 VLM 骨干被冻结，ActionQuery 仍可从头训练（论文 H 部分）—— 因其并非 VLM 原生组件，而是插入序列的独立可学习 token，能独立适配动作空间作者通过大量实验发现： 1；对于Raw 特征，中层 Raw 特征最有效，—— 深层 Raw 特征偏向语义信息，对动作生成帮助有限，并且全层 Raw 特征的性能优于单层，但是如果只使用Raw 特征表现不好，还需融合ActionQuery 2；论文通过消融实验确定64 个 ActionQuery token为最优—— 数量过少会导致信息聚合不足，过多则引入冗余，64 个能平衡性能与效率 ...