<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>OpenVLA on 33</title>
    <link>https://syl.moe5200.com/tags/openvla/</link>
    <description>Recent content in OpenVLA on 33</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 33</copyright>
    <lastBuildDate>Sun, 28 Jun 2026 02:30:00 +0000</lastBuildDate>
    <atom:link href="https://syl.moe5200.com/tags/openvla/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>0.5B 超小模型是怎么打败 OpenVLA 7B 的？小模型的顶级 SOTA！</title>
      <link>https://syl.moe5200.com/posts/vla-wam/vla-adapter-tiny-sota/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/vla-adapter-tiny-sota/</guid>
      <description>&lt;p&gt;今天这篇 2025 年 9 月的论文，在 VLA 这个卷到飞起的领域里确实算有点 “老” 了
VLA-Adapter
arxiv 编号：2509.09372
但是不妨它还是小模型之王！
它的核心做法，一句话就能讲清：用一套由&lt;strong&gt;两个交叉注意力 + 一个自注意力&lt;/strong&gt;构成的 Bridge Attention 桥接模块，实现了极致轻量化的 VLA 建模。&lt;/p&gt;
&lt;p&gt;0.5B 骨干的 VLA-Adapter 平均成功率达97.3%，直接追平 14 倍参数量的 7B OpenVLA-OFT（97.1%）&lt;/p&gt;
&lt;p&gt;在讲核心创新之前，我们得先搞懂当前 VLA 领域，VLM 对接动作空间的两种主流路径，也是这篇论文的核心研究对象：
在当前VLA研究中，原始的VLM主要以两种方式连接action
1；Raw 特征（Raw latent）是直接从视觉 - 语言模型（VLM）中提取的原生视觉 - 语言表征，即VLM 对原始输入进行编码后，从指定层输出的特征向量，可从 VLM 的单层（浅层 / 中层 / 深层）或全层提取
2；ActionQuery 特征（ActionQuery latent）是为桥接 VL 与动作空间而额外引入的可学习查询向量，并且即使 VLM 骨干被冻结，ActionQuery 仍可从头训练（论文 H 部分）—— 因其并非 VLM 原生组件，而是插入序列的独立可学习 token，能独立适配动作空间&lt;/p&gt;
&lt;p&gt;作者通过大量实验发现：
1；对于Raw 特征，中层 Raw 特征最有效，—— 深层 Raw 特征偏向语义信息，对动作生成帮助有限，并且全层 Raw 特征的性能优于单层，但是如果只使用Raw 特征表现不好，还需融合ActionQuery
2；论文通过消融实验确定64 个 ActionQuery token为最优—— 数量过少会导致信息聚合不足，过多则引入冗余，64 个能平衡性能与效率&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
