今天这篇 2025 年 9 月的论文,在 VLA 这个卷到飞起的领域里确实算有点 “老” 了 VLA-Adapter arxiv 编号:2509.09372 但是不妨它还是小模型之王! 它的核心做法,一句话就能讲清:用一套由两个交叉注意力 + 一个自注意力构成的 Bridge Attention 桥接模块,实现了极致轻量化的 VLA 建模。
0.5B 骨干的 VLA-Adapter 平均成功率达97.3%,直接追平 14 倍参数量的 7B OpenVLA-OFT(97.1%)
在讲核心创新之前,我们得先搞懂当前 VLA 领域,VLM 对接动作空间的两种主流路径,也是这篇论文的核心研究对象: 在当前VLA研究中,原始的VLM主要以两种方式连接action 1;Raw 特征(Raw latent)是直接从视觉 - 语言模型(VLM)中提取的原生视觉 - 语言表征,即VLM 对原始输入进行编码后,从指定层输出的特征向量,可从 VLM 的单层(浅层 / 中层 / 深层)或全层提取 2;ActionQuery 特征(ActionQuery latent)是为桥接 VL 与动作空间而额外引入的可学习查询向量,并且即使 VLM 骨干被冻结,ActionQuery 仍可从头训练(论文 H 部分)—— 因其并非 VLM 原生组件,而是插入序列的独立可学习 token,能独立适配动作空间
作者通过大量实验发现: 1;对于Raw 特征,中层 Raw 特征最有效,—— 深层 Raw 特征偏向语义信息,对动作生成帮助有限,并且全层 Raw 特征的性能优于单层,但是如果只使用Raw 特征表现不好,还需融合ActionQuery 2;论文通过消融实验确定64 个 ActionQuery token为最优—— 数量过少会导致信息聚合不足,过多则引入冗余,64 个能平衡性能与效率
我的理解是,VLM 就像一根树枝,给它加一个动作生成头,本质上就是「嫁接」。而作者在反复试验中发现:想让嫁接的新枝长得好,不能只在树皮表面拼接,要在树枝上切开一个精准的豁口(用对中层 + 全层 VLM 特征),再给新枝做一个能严丝合缝嵌进去的锥型接口(从头训练的 AQ 特征),这时候将两者拼接,则能使新的分支更加适应原本的”树枝“
作者根据这些,直接对attention进行改进—— 他们设计了一个可学习门控参数 Ratio g,对于VLM输出的R特征(Raw)和AQ特征(ActionQuery)进行选择性融合 在原始的VLM头上,新增加的Policy 的 Bridge Attention 通过三个并行分支,实现视觉、语言、机器人状态的统一聚合:
- 分支 1(Cross-Attention):通过门控调节Raw特征(前文实验验证的全层 Raw 特征)注入,补充复杂任务所需的细粒度信息。
- 分支 2(Cross-Attention):将 VLM 输出的动作专用特征(AQ)与机器人状态直接融合,这是动作生成的核心依据;
- 分支 3(Self-Attention):捕捉动作序列自身的时序依赖,也就是整个输出的token; 三个分支的输出拼接后,经多头注意力计算和 FFN 处理,最终生成贴合机器人实际状态、符合视觉 - 语言指令的动作。
这套堪称「精准嫁接」的漂亮工作,没有盲目堆参数量、堆机器人预训练数据,而是把 VLM 每一层的视觉 - 语言价值榨干用透,打破了「VLA 必须靠大模型、大数据才能出效果」的行业惯性。这也是为什么这个 0.5B 的小模型,时隔半年依然是 tiny 级 VLA 标杆的核心原因。
评论