论文:HiPolicy 2604.06067 核心 Motivation: 主流的模仿学习(DP、ACT、DP3 ),一般都是采用固定频率的动作分块 论文这里对频率分类
- 相同分块尺寸下,低频分块能捕捉长时序任务依赖,但缺乏细粒度闭环控制的时间分辨率;
- 高频分块能实现精细的动作调整,但长时序依赖的建模能力严重不足。
很显然单频动作输出完全不符合人类真实的运动控制逻辑 那这篇工作是怎么做的? 举个最直观的例子:机械臂抓取桌上的水杯
- 机械臂从原点伸向水杯上方:这是目标明确的大段运动,轨迹是确定的,属于长周期的阶段级动作,完全可以用低频动作输出 —— 用低频编码「从原点→杯子上方」的高层意图,天然适配长时序规划;
- 机械臂对位、旋转、夹取水杯:这是强依赖实时反馈的精细控制,只需要关注最近的观测上下文,需要快速闭环响应,用高频动作输出,实现精准的位姿调整。 怎么实现的?HiPolicy 比较暴力,直接一次前向推理同时输出多个频率的动作分块,再通过熵引导的机制,自适应选最合适的频率执行。
以 M=3 个频率(5Hz、10Hz、15Hz)为例,所有频率的观测 / 动作都对齐到一个时间,之后不同频率的动作通过分层特征融合实现信息协同 在推理之前,根据频率对输入进行采样
- 5Hz(每 200ms 采样 1 次):
[o₁, o₃, o₅, o₇]→ 低采样密度,抓长时序的任务阶段变化,给全局规划做支撑 - 10Hz(每 100ms 采样 1 次):
[o₁, o₂, o₃, o₄, o₅, o₆, o₇]→ 中等采样密度,做常规动作调整,衔接全局规划和精细控制 - 15Hz(每66ms 采样 1 次):
[o₁,o₂,o₃,o₄,o₅,o₆,o₇,o₈,o₉,o₁₀]→ 高采样密度,保留细粒度的实时环境和本体状态,给精细闭环控制用 对应观测频率,框架一次推理就同步出 3 个频率的完整动作块,各司其职: - 5Hz 低频动作→ 编码「阶段 1→阶段 2→阶段 3」的高层任务意图
- 10Hz 中频动作 → 输出中等粒度的动作调整
- 15Hz 高频动作 → 输出高时间分辨率的精细动作 计算每个动作维度的均值与标准差 μj=mean(aj1,aj2,…,ajN) 第j个动作维度的期望 σj=std(aj1,aj2,…,ajN) 第j个动作维度的标准差
- 基于标准差估计动作熵 标准差大 → 熵值高 → 预测不确定性高 标准差小 → 熵值低 → 预测结果稳定
- 根据熵值选择执行频率
- 熵值低(动作稳定)→ 执行高频动作块(精细控制)
- 熵值高(动作不确定)→ 执行低频动作块(靠长期规划保证稳定性)
题外话:之前看过一篇帖子讲这种分类,我也特别赞同输出快慢动作这种概念,VLA实现这种应该也会实现大幅加速和稳定
评论