Thinking

研究判断、学习方法、技术路线与阶段性想法。

让机器人学会选择输出快！慢！动作

论文：HiPolicy 2604.06067 核心 Motivation：主流的模仿学习（DP、ACT、DP3 ），一般都是采用固定频率的动作分块论文这里对频率分类相同分块尺寸下，低频分块能捕捉长时序任务依赖，但缺乏细粒度闭环控制的时间分辨率；高频分块能实现精细的动作调整，但长时序依赖的建模能力严重不足。很显 …

看论文不知道在看什么？一张图表讲清楚现在 VLA 的主流方向

上海交大学生手册曾经提到过一句话，让我记忆犹新： ”做科研最重要的，不是你在做什么，而是你知道正在做的是什么“ 整天看论文，翻来覆去，只知道这篇论文做了什么但是到了下一篇论文，却又手足无措？脑子混乱，思路不清晰，这正是不清楚技术路线的表现。今天，一张图表带你看清 VLA的主流方向。今后再看论文，直接在大脑中对应 …

VLA Paper Reading Research

判断幻觉还在看 attention sink 吗？直接用 saliency 判断大模型幻觉

在研究大模型以及多模态模型的时候，我们通常使用做“信息流”——用 attention map 来观察 token 间依赖关系也就是对于第P个生成位置，我们先给模型输入前P-1个 token，这里可能包括了提示词，系统提示词，图像token，已经输出的token等等。之后预测第P个token，在每一层每个 …

LLM VLM Hallucination Saliency

WAM和VLA，本质上都是在预测“状态”

PI0.5有一个很有意思的地方，他在动作头中，引入了一些随机初始化的token作为Q来和VLM输出进行交叉注意力论文中把他们称为future token，即让模型想象一下“未来” 但是，这只是作者的声明，为什么就一定是future呢？这只是融合了当前 VLM 表示，并不自动等价于预测未来状态并且不会觉得相似吗？ …

VLA WAM Latent State

pi0 原来早就被淘汰了？6 分钟速览 Discrete Diffusion 最新论文

先前的VLA现在主要分为三种类型，其中两个是基于原先的VLM架构，直接解耦出来，增加上一个MLP头或者连续扩散头，另一个则是传统的自回归类型。但是！将这种决策或生成模块置于主干网络之外，会破坏模型端到端的表征连续性与推理统一性，什么意思？就是这基本上就是两个网络，两个人自己玩自己的，还需要分别单独去训练，并且前面的网络 …

VLA Pi0 Discrete Diffusion

flow matching 是怎么成为 VLA 的主流方法的？

为什么流匹配能成为vla的主流之一？一篇pi0带你看懂flow matching的vla架构！在讲flow matching之前，我们先来回顾一下diffusion的思想—— 扩散模型的完整逻辑由正向扩散（加噪）和逆向扩散（去噪 / 生成) 两个互逆的过程组成。拿扩散最拿手的图像生成领域来讲，对图像里的每个像素（比 …

VLA Flow Matching Pi0

0.5B 超小模型是怎么打败 OpenVLA 7B 的？小模型的顶级 SOTA！

今天这篇 2025 年 9 月的论文，在 VLA 这个卷到飞起的领域里确实算有点 “老” 了 VLA-Adapter arxiv 编号：2509.09372 但是不妨它还是小模型之王！它的核心做法，一句话就能讲清：用一套由两个交叉注意力 + 一个自注意力构成的 Bridge Attention 桥接模块，实现了极致轻 …

VLA OpenVLA VLA-Adapter

"COT" 是怎么在 VLA 里面火起来的？

自从具身大火之后，之前很多做LLM，VLM的人涌进来很多 VLA是建立在VLM的基础上的，早年的VLA很朴素，一般是VLM加个自回归生成的动作头，再用机器人数据微调一下既然是VLA从VLM发展过来的，那VLM上的method都应该在VLA上能够施展开来于是，这波论文潮随之而来了某种意义上，论文数量的涌现效应甚至比 …

VLA COT Robotics