<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Robotics on 33</title>
    <link>https://syl.moe5200.com/tags/robotics/</link>
    <description>Recent content in Robotics on 33</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 33</copyright>
    <lastBuildDate>Sun, 28 Jun 2026 02:30:00 +0000</lastBuildDate>
    <atom:link href="https://syl.moe5200.com/tags/robotics/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>&#34;COT&#34; 是怎么在 VLA 里面火起来的？</title>
      <link>https://syl.moe5200.com/posts/vla-wam/cot-in-vla/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/cot-in-vla/</guid>
      <description>&lt;p&gt;自从具身大火之后，之前很多做LLM，VLM的人涌进来很多&lt;/p&gt;
&lt;p&gt;VLA是建立在VLM的基础上的，早年的VLA很朴素，一般是VLM加个自回归生成的动作头，再用机器人数据微调一下
既然是VLA从VLM发展过来的，那VLM上的method都应该在VLA上能够施展开来&lt;/p&gt;
&lt;p&gt;于是，这波论文潮随之而来了&lt;/p&gt;
&lt;p&gt;某种意义上，论文数量的涌现效应甚至比模型能力本身的提升更明显&lt;/p&gt;
&lt;p&gt;COT-VLA（2503.22020）是最早引入COT的VLA，在输入之后，模型先生成未来图像帧作为视觉推理链，用视觉子目标刻画任务推进过程，再基于当前观测和预测子目标生成短动作序列
但本质上，这仍然是在视觉/语义空间中进行中间推理
VLA 最终学习和执行的是动作，而未来图像、语言规划或其他中间 token 都只是动作生成的辅助条件。它们能提供一定的任务进展信息，但和真实的连续控制之间仍然存在 gap。因此，这类方法很快被进一步迭代&lt;/p&gt;
&lt;p&gt;之后的做法还是在这个方向上改进，通过加其他模态或者换个空间来辅助动作模型的生成&lt;br&gt;
可以分成这几部分：
视觉 CoT：生成未来图像/子目标图像，再生成动作
多模态 CoT：文本规划 + 视觉预测 + 动作预测串起来
latent CoT：不显式生成文字或图像，而是在 latent space 里推理未来动态
并行 CoT：解决 CoT 推理太慢的问题
动作 CoT：直接在 action space 里生成粗动作链/参考轨迹&lt;/p&gt;
&lt;p&gt;当然，对上面方法进行排列组合之后就是新的COT了&lt;/p&gt;
&lt;p&gt;我们可以针对VLM，让VLM生成显式/隐式的动作/视觉/文本的token，或者同时生成（并行），再用融合之后的token作为辅助输出动作
当然，也可以单独拿出来一个视觉/运动/的expert来单独生成这些token，再进行多模态融合
但是 这些都是让模型通过多学或者多输出一些辅助token来帮助动作模型，这对于LLM是好的，因为LLM的涌现已经得到了惊人的力量
可是 VLA还没有来到GPT时刻，COT本质上做的工作还是对动作进行辅助&lt;/p&gt;
&lt;p&gt;如果动作学习本身还没有达到足够强的能力密度，那么再复杂的 CoT 也可能只是修饰输入，而不是改变模型本体&lt;/p&gt;
&lt;p&gt;铁出现之前，用来铸剑的方法用在木棍上，再尖的木棍还是木棍&lt;/p&gt;
&lt;p&gt;相比之下，另一条路线不是继续堆 CoT，而是直接研究模型如何更有效地学习动作。比如 PokeVLA 通过更系统的 embodied knowledge 预训练和 action expert；VLA-Adapter 关注如何把信息高效地桥接到 action space，用轻量 policy 和 Bridge Attention 减少对大模型和大规模机器人预训练的依赖。&lt;/p&gt;
&lt;p&gt;这些工作在某种程度上说明，data 和 action learning 本身可能比单纯增加辅助 token 更关键。
至少在我看来，VLM 更像是为动作学习提供语义、视觉和先验知识的工具，而不是 VLA 能力涌现的根本来源。&lt;/p&gt;</description>
    </item>
    <item>
      <title>让机器人学会选择输出快！慢！动作</title>
      <link>https://syl.moe5200.com/posts/vla-wam/hipolicy-fast-slow-actions/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/hipolicy-fast-slow-actions/</guid>
      <description>&lt;p&gt;论文：HiPolicy  2604.06067
核心 Motivation：
主流的模仿学习（DP、ACT、DP3 ），一般都是采用固定频率的动作分块
论文这里对频率分类&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;相同分块尺寸下，&lt;strong&gt;低频分块&lt;/strong&gt;能捕捉长时序任务依赖，但缺乏细粒度闭环控制的时间分辨率；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;高频分块&lt;/strong&gt;能实现精细的动作调整，但长时序依赖的建模能力严重不足。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;很显然单频动作输出完全不符合人类真实的运动控制逻辑
那这篇工作是怎么做的？
举个最直观的例子：机械臂抓取桌上的水杯&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;机械臂从原点伸向水杯上方：这是目标明确的大段运动，轨迹是确定的，属于长周期的阶段级动作，完全可以用低频动作输出 —— 用低频编码「从原点→杯子上方」的高层意图，天然适配长时序规划；&lt;/li&gt;
&lt;li&gt;机械臂对位、旋转、夹取水杯：这是强依赖实时反馈的精细控制，只需要关注最近的观测上下文，需要快速闭环响应，用高频动作输出，实现精准的位姿调整。
怎么实现的？HiPolicy 比较暴力，直接一次前向推理同时输出多个频率的动作分块，再通过熵引导的机制，自适应选最合适的频率执行。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;以 M=3 个频率（5Hz、10Hz、15Hz）为例，所有频率的观测 / 动作都对齐到一个时间，之后不同频率的动作通过分层特征融合实现信息协同
在推理之前，根据频率对输入进行采样&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;5Hz（每 200ms 采样 1 次）：&lt;code&gt;[o₁, o₃, o₅, o₇]&lt;/code&gt; → 低采样密度，抓长时序的任务阶段变化，给全局规划做支撑&lt;/li&gt;
&lt;li&gt;10Hz（每 100ms 采样 1 次）：&lt;code&gt;[o₁, o₂, o₃, o₄, o₅, o₆, o₇]&lt;/code&gt; → 中等采样密度，做常规动作调整，衔接全局规划和精细控制&lt;/li&gt;
&lt;li&gt;15Hz（每66ms 采样 1 次）：&lt;code&gt;[o₁,o₂,o₃,o₄,o₅,o₆,o₇,o₈,o₉,o₁₀]&lt;/code&gt; → 高采样密度，保留细粒度的实时环境和本体状态，给精细闭环控制用
对应观测频率，框架一次推理就同步出 3 个频率的完整动作块，各司其职：&lt;/li&gt;
&lt;li&gt;5Hz 低频动作→ 编码「阶段 1→阶段 2→阶段 3」的高层任务意图&lt;/li&gt;
&lt;li&gt;10Hz 中频动作  → 输出中等粒度的动作调整&lt;/li&gt;
&lt;li&gt;15Hz 高频动作  → 输出高时间分辨率的精细动作
计算每个动作维度的均值与标准差
μj​=mean(aj1​,aj2​,&amp;hellip;,ajN​)  第j个动作维度的期望
σj​=std(aj1​,aj2​,&amp;hellip;,ajN​)      第j个动作维度的标准差&lt;/li&gt;
&lt;li&gt;基于标准差估计动作熵
标准差大 → 熵值高 → 预测不确定性高
标准差小 → 熵值低 → 预测结果稳定&lt;/li&gt;
&lt;li&gt;根据熵值选择执行频率
&lt;ul&gt;
&lt;li&gt;熵值低（动作稳定）→ 执行高频动作块（精细控制）&lt;/li&gt;
&lt;li&gt;熵值高（动作不确定）→ 执行低频动作块（靠长期规划保证稳定性）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;题外话：之前看过一篇帖子讲这种分类,我也特别赞同输出快慢动作这种概念，VLA实现这种应该也会实现大幅加速和稳定&lt;/p&gt;</description>
    </item>
    <item>
      <title>VLA / WAM 研究索引</title>
      <link>https://syl.moe5200.com/posts/vla-wam/overview/</link>
      <pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/vla-wam/overview/</guid>
      <description>&lt;p&gt;这个栏目用于整理 VLA / WAM 相关资料，包括多模态理解、动作生成、机器人控制和系统集成。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
