0.5B 超小模型是怎么打败 OpenVLA 7B 的?小模型的顶级 SOTA!
今天这篇 2025 年 9 月的论文,在 VLA 这个卷到飞起的领域里确实算有点 “老” 了 VLA-Adapter arxiv 编号:2509.09372 但是不妨它还是小模型之王! 它的核心做法,一句话就能讲清:用一套由两个交叉注意力 + 一个自注意力构成的 Bridge Attention 桥接模块,实现了极致轻量化的 VLA 建模。 0.5B 骨干的 VLA-Adapter 平均成功率达97.3%,直接追平 14 倍参数量的 7B OpenVLA-OFT(97.1%) 在讲核心创新之前,我们得先搞懂当前 VLA 领域,VLM 对接动作空间的两种主流路径,也是这篇论文的核心研究对象: 在当前VLA研究中,原始的VLM主要以两种方式连接action 1;Raw 特征(Raw latent)是直接从视觉 - 语言模型(VLM)中提取的原生视觉 - 语言表征,即VLM 对原始输入进行编码后,从指定层输出的特征向量,可从 VLM 的单层(浅层 / 中层 / 深层)或全层提取 2;ActionQuery 特征(ActionQuery latent)是为桥接 VL 与动作空间而额外引入的可学习查询向量,并且即使 VLM 骨干被冻结,ActionQuery 仍可从头训练(论文 H 部分)—— 因其并非 VLM 原生组件,而是插入序列的独立可学习 token,能独立适配动作空间 作者通过大量实验发现: 1;对于Raw 特征,中层 Raw 特征最有效,—— 深层 Raw 特征偏向语义信息,对动作生成帮助有限,并且全层 Raw 特征的性能优于单层,但是如果只使用Raw 特征表现不好,还需融合ActionQuery 2;论文通过消融实验确定64 个 ActionQuery token为最优—— 数量过少会导致信息聚合不足,过多则引入冗余,64 个能平衡性能与效率 ...