让机器人学会选择输出快!慢!动作
论文:HiPolicy 2604.06067 核心 Motivation: 主流的模仿学习(DP、ACT、DP3 ),一般都是采用固定频率的动作分块 论文这里对频率分类 相同分块尺寸下,低频分块能捕捉长时序任务依赖,但缺乏细粒度闭环控制的时间分辨率; 高频分块能实现精细的动作调整,但长时序依赖的建模能力严重不足。 很显 …
研究判断、学习方法、技术路线与阶段性想法。
论文:HiPolicy 2604.06067 核心 Motivation: 主流的模仿学习(DP、ACT、DP3 ),一般都是采用固定频率的动作分块 论文这里对频率分类 相同分块尺寸下,低频分块能捕捉长时序任务依赖,但缺乏细粒度闭环控制的时间分辨率; 高频分块能实现精细的动作调整,但长时序依赖的建模能力严重不足。 很显 …
上海交大学生手册曾经提到过一句话,让我记忆犹新: ”做科研最重要的,不是你在做什么,而是你知道正在做的是什么“ 整天看论文,翻来覆去,只知道这篇论文做了什么 但是到了下一篇论文,却又手足无措? 脑子混乱,思路不清晰,这正是不清楚技术路线的表现。 今天,一张图表带你看清 VLA的主流方向。 今后再看论文,直接在大脑中对应 …
在研究大模型以及多模态模型的时候,我们通常使用做“信息流”——用 attention map 来观察 token 间依赖关系 也就是对于第P个生成位置,我们先给模型输入前P-1个 token,这里可能包括了提示词,系统提示词,图像token,已经输出的token等等。 之后预测第P个token,在每一层每个 …
PI0.5有一个很有意思的地方,他在动作头中,引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力 论文中把他们称为future token,即让模型想象一下“未来” 但是,这只是作者的声明,为什么就一定是future呢? 这只是融合了当前 VLM 表示,并不自动等价于预测未来状态 并且不会觉得相似吗? …
先前的VLA现在主要分为三种类型,其中两个是基于原先的VLM架构,直接解耦出来,增加上一个MLP头或者连续扩散头,另一个则是传统的自回归类型。但是!将这种决策或生成模块置于主干网络之外,会破坏模型端到端的表征连续性与推理统一性,什么意思?就是这基本上就是两个网络,两个人自己玩自己的,还需要分别单独去训练,并且前面的网络 …
为什么流匹配能成为vla的主流之一?一篇pi0带你看懂flow matching的vla架构! 在讲flow matching之前,我们先来回顾一下diffusion的思想—— 扩散模型的完整逻辑由正向扩散(加噪)和逆向扩散(去噪 / 生成) 两个互逆的过程组成。 拿扩散最拿手的图像生成领域来讲,对图像里的每个像素(比 …
今天这篇 2025 年 9 月的论文,在 VLA 这个卷到飞起的领域里确实算有点 “老” 了 VLA-Adapter arxiv 编号:2509.09372 但是不妨它还是小模型之王! 它的核心做法,一句话就能讲清:用一套由两个交叉注意力 + 一个自注意力构成的 Bridge Attention 桥接模块,实现了极致轻 …
自从具身大火之后,之前很多做LLM,VLM的人涌进来很多 VLA是建立在VLM的基础上的,早年的VLA很朴素,一般是VLM加个自回归生成的动作头,再用机器人数据微调一下 既然是VLA从VLM发展过来的,那VLM上的method都应该在VLA上能够施展开来 于是,这波论文潮随之而来了 某种意义上,论文数量的涌现效应甚至比 …