跳到主要内容

11. π₀.6:在线闭环与优势策略

先修建议

  • 已完成第 9 讲 ,理解 VLM + Flow Matching Action Expert 基础骨架。
  • 已完成第 10 讲 ,理解“高层子任务文本 -> 低层动作”分层执行。
  • 可先了解第 11 讲 RTC 中的 action chunk 与延迟问题;它不是 的架构前置。

本节目标

  • 理解 Recap 如何把部署数据转成可训练的优势监督信号。
  • 对齐 的模型构型、价值函数训练与优势条件策略提取公式。
  • 掌握“采集 -> 估值 -> 提取 -> 重置”在线迭代闭环。
  • 建立从 的连续能力阶梯。
章节解决的核心问题
(第 9 讲)跨机体基础骨架如何建立
(第 10 讲)开放世界场景中的分层执行如何落地
RTC(第 11 讲)慢模型如何接入实时控制闭环
(第 12 讲)部署后如何利用经验持续改进
(第 13 讲)如何可控地组合和指挥新技能

1. π₀.6 定位

第 11 讲讨论推理延迟下的实时执行。本节转向与之并列的学习问题:执行结果如何反向进入训练,并引向后续章节中的可控技能组合。

论文中的方法名是 Recap,全称为 RL with Experience and Corrections via Advantage-conditioned Policies。它是一套让 VLA 在部署后继续改进的训练流程:机器人先执行任务,系统再从这批尝试中判断哪些动作值得强化,最后把这些判断重新写回策略训练中。

文中有两个容易混淆的名称: 是基础 VLA 模型, 通常指经过 Recap 训练后得到的强化版本。本节主要讨论后者背后的学习闭环,而不是单纯比较模型参数量。

论文没有把 描述为基于 RTC 构建。模型来源更准确地写成 的模型演进, 则是在 上加入优势条件与 Recap 训练得到的强化版本。

的核心变化不是再换一套动作头,而是给 VLA 增加一条部署后可循环的学习回路:

  1. 在真实任务中运行当前策略,收集自主轨迹与人类纠正轨迹。
  2. 用任务结果训练价值函数,估计动作优劣。
  3. 把优劣信号变成策略条件,重新训练下一轮策略。

总览图需要关注三段闭环:部署采集、价值训练、优势条件策略提取。模型规模变化不是本节的主要线索。

Recap 总览:部署采集、价值训练与优势条件策略提取组成在线迭代闭环
Recap 总览:部署采集、价值训练与优势条件策略提取组成在线迭代闭环

这套闭环针对的是前面章节中常见的限制:训练结束后模型参数基本固定。 把部署中的成功与失败转成下一轮训练的监督信号,使策略能在目标场景持续提升吞吐与稳定性。


2. 任务定义与符号约定

沿用 的分层执行语义后, 还需要一组用于在线学习的 RL 数学对象。

这些符号可以对应到真实机器人执行过程:一条轨迹是机器人从开始执行到任务结束的一次尝试。成功、失败、耗时、人类是否接管,都会被整理成训练信号。价值函数 估计“从当前观测继续执行,距离成功还差多少”;优势函数 估计“当前动作相对参考策略的平均选择是否更好”。

论文主文把轨迹写为:

并使用(未加折扣的)回报定义:

策略目标是最大化:

值函数与优势可写为:

符号含义
时刻 观测(图像、本体状态、语言上下文)
时刻 动作
当前参考策略下的状态价值
动作相对状态基线的改进量
优势二值指示器(正/负)
任务相关的优势阈值

3. 奖励设计与数据组成

在真实部署任务中,首先需要把 episode 结果映射为统一的奖励监督。

论文采用通用稀疏奖励:

这一定义让价值函数学习“离成功还剩多少步”,并把失败轨迹压到更低值区。实现中把价值按任务最大长度归一化到

数据组成是三类混合:

  1. 示教数据(demonstrations)。
  2. 自主执行数据(autonomous rollouts)。
  3. 人类纠正数据(expert interventions)。

这里的“人类纠正”更接近 human-gated DAgger:机器人自主执行时,专家在明显要失败或已经偏离任务时接管一段动作。纠正数据主要用于避免灾难性失败、帮助探索恢复动作,但并不等价于完美监督;速度、动作流畅性和细微质量仍需要从自主轨迹的奖励反馈中学习。

不同任务每轮数据量并不统一,典型示例包括:

  • T-shirt/shorts 任务:每轮约 300 条自主轨迹(4 台机器人)。
  • Box assembly:每轮约 600 条自主 + 360 条纠正(3 台机器人)。
  • Cafe:单轮约 414 条自主 + 429 条纠正。

因此,“600+360”应理解为特定任务设置,不是所有任务的统一单轮配额。


4. 模型构型:从 π₀ 到 π₀.6

相对 ,本节的变化重点是“优势条件 + 价值函数并行”,不是重建主干架构。

从架构来源看, 保留 的核心形式:VLM 负责图像、语言和高层子任务文本,Action Expert 负责生成连续动作块。动作仍是 50Hz 的 joint / gripper action chunk,高层 rawtext 子任务文本先生成,低层动作再在它的条件下生成。

的策略模型沿用 系列骨架,并在三处增强:

  1. VLM 主干升级为 Gemma 3 4B。
  2. 动作专家扩展到 860M 参数。
  3. 在输入序列中增加优势指示器文本(正/负/空条件)。

训练配方也延续了 中的 KI(Knowledge Insulation)思路:训练时同时保留 rawtext、FAST 离散动作 token 监督与 Flow Matching 连续动作块监督,并通过 stop gradient 降低动作专家对 VLM 主干知识的扰动。这里的 FAST token 是训练表示学习信号,不是 新增的部署动作格式;最终低层控制仍由连续 Action Expert 输出。因此, 的强化学习改造不是把原有 VLA 拆掉,而是在原有“高层文本 + 离散动作 token 监督 + 连续动作专家”的训练目标上加入优势条件。

与策略并行训练的是独立价值函数网络,采用 670M VLM backbone。策略与价值函数不共享参数更新。

架构图的关键在于策略分支与价值分支的分工:策略网络生成动作,价值函数为动作优劣提供训练信号。

π₀.6 架构:策略网络(4B+860M)与独立价值函数(670M)协同形成在线学习闭环
π₀.6 架构:策略网络(4B+860M)与独立价值函数(670M)协同形成在线学习闭环

优势指示器的注入位置也很关键:它以文本 token 形式出现于 rawtext 之后、动作输出之前,因此主要调制动作相关 likelihood,而不改任务提示本身的语义输入结构。


5. 分布式价值函数训练

RTC 关注推理延迟下的动作连续性,本节回答“执行结果如何变成稳定价值监督”。

价值函数在这里不是直接预测“成功/失败”二分类,而是预测一个分布:当前状态距离成功大概还有多少剩余代价。这样做的好处是,模型可以区分“还没完成但正在变好”和“已经走向失败”这两种状态。

论文使用多任务分布式价值函数:

核心训练目标是“离散化 empirical return + 交叉熵”:

其中 是从时刻 到 episode 结束的经验回报离散化结果。该目标在文中被解释为基于数据集行为策略的 Monte Carlo 估计。

这个估计比经典 off-policy Q-function 更朴素:它不显式学习所有可能动作的 ,而是用数据集里真实发生过的轨迹回报监督状态价值。论文选择这条路径,主要是因为它简单、稳定,适合大规模 VLA 和混合来源数据。实现中,价值函数还会与少量多模态网页数据共同训练,用于降低过拟合风险。

训练完成后,再由分布恢复连续值:

价值函数可视化展示了成功轨迹与失败轨迹中价值重心随时间的变化趋势。

价值函数可视化:成功轨迹价值逐步抬升,失败轨迹在关键错误处出现明显下坠
价值函数可视化:成功轨迹价值逐步抬升,失败轨迹在关键错误处出现明显下坠

这里可以与 C51 等分布式价值方法做背景类比,但 主文实现口径是“离散回报监督 + 交叉熵”,不应写成投影贝尔曼主路径。


6. 优势条件策略

本节与 RTC 不是架构继承关系,而是正交层:RTC 解决实时执行,本节解决策略更新方式。

有了价值函数后,Recap 不直接走常规 on-policy PPO 主路径,而采用优势条件策略提取。核心做法是给数据里的每个动作贴上“正优势”或“负优势”标签。模型训练时同时学习普通动作分布和正优势动作分布,推理时再偏向正优势分布。

先定义二值指示器:

𝟙

策略优化目标为:

其中关键实践细节包括:

  1. 人类纠正动作强制设为
  2. 训练时随机 dropout 指示器(30%),以支持有条件/无条件双分布建模。
  3. 推理可用 CFG 进行条件锐化,但过高 可能导致动作过激,论文建议中等区间(如 )。
  4. post-training 阶段使用 lookahead 估计优势;pre-training 阶段可用整条 episode 回报近似优势。
  5. 是任务相关阈值,而不是固定 0。论文中 pre-training 让约 30% 示教数据成为正优势样本,finetuning 通常让约 40% rollout 成为正优势样本;对 T-shirt/shorts 这类高成功但速度偏慢的任务,会把正优势比例压到约 10%,让模型更偏向快而好的动作。

为什么不把 PPO 作为主路径:

  1. Flow Matching 模型不直接提供易用的显式 log-likelihood。
  2. 大模型离线/混合数据训练场景下,传统 on-policy 约束更难稳定扩展。
  3. 论文实证中,优势条件提取在 throughput 上显著优于对比的 PPO/AWR 方案。

这也是 Recap 与简单 filtered imitation 的差别。AWR 这类加权回归会弱化大量低优势样本;优势条件训练则保留完整数据,同时让模型区分“普通经验”和“更值得执行的经验”。


7. 在线闭环

基于 的部署场景,本节进一步说明模型部署后如何迭代更新。

的单轮迭代可写为三步:

  1. 数据采集:运行当前策略,收集自主轨迹与可选人类纠正。
  2. 价值更新:在累积数据上训练价值函数,重新估计优势并生成
  3. 策略提取:用更新后的 重新训练策略。

其中一个稳定性关键是:策略与价值函数每轮都从 pre-trained checkpoint 初始化,而不是在上一轮权重上直接续训,用于降低多轮分布漂移风险。

graph LR
A[部署当前策略] --> B[采集自主轨迹与纠正轨迹]
B --> C[训练价值函数\n更新优势与I_t]
C --> D[优势条件策略提取]
D --> E[从预训练ckpt进入下一轮]
E --> A

训练流程还包含一个初始化阶段:先在任务示教数据上做 SFT(此时固定 ),得到首轮可部署策略,再进入上述迭代环。


8. 实验结果分析

的实验集中回答三个问题:真实任务协议是什么、在线迭代带来多少主结果、关键消融是否支持 Recap 的设计。下面把实验协议、主结果和消融统一放在同一个实验小节中阅读,避免与前面的模型机制并列成过多主章节。

8.1 实验协议

相较 的“开放世界可执行”证据,本节关注“是否可通过在线迭代持续变强”。论文没有只评测短程桌面 pick-and-place,而是选择了持续数分钟、失败模式丰富、速度也很重要的真实任务。

这些任务的共同点是长程、多阶段,并且对失败恢复和执行速度都有要求。

评测任务集合:三类 laundry、咖啡制作和纸箱组装,覆盖布料、液体、纸板和多阶段流程
评测任务集合:三类 laundry、咖啡制作和纸箱组装,覆盖布料、液体、纸板和多阶段流程
任务示例:espresso、box assembly 和 diverse laundry 都包含长程、多阶段、非刚体或接触丰富的真实操作
任务示例:espresso、box assembly 和 diverse laundry 都包含长程、多阶段、非刚体或接触丰富的真实操作
实验机器人平台:静态双臂系统,两个 6DoF 机械臂配平行夹爪,50Hz joint position 控制,输入包含三路相机和本体状态
实验机器人平台:静态双臂系统,两个 6DoF 机械臂配平行夹爪,50Hz joint position 控制,输入包含三路相机和本体状态

论文的量化评估包含五类任务:

任务主要难点成功标准
Laundry: T-shirts and shorts从篮子取出、摊平、折叠、堆叠,初始状态变化大200 秒内折好并放到桌面右上角
Laundry: diverse items11 类衣物混合训练,评测聚焦较难的 button-up shirt500 秒内折好目标衣物并放到堆叠区
Laundry: targeted failure removal固定橙色 T-shirt,严格考察领口方向200 秒内折叠正确,且领口朝上
Cafe: double shot espressoportafilter、研磨、压粉、锁入咖啡机、接咖啡、上杯200 秒内完成全流程,不能掉落或洒出
Box assembly从扁平纸板到成盒、贴标签、放入 crate,真实工厂部署600 秒内完成组装、贴标和堆放

核心指标有两个:

指标含义为什么重要
throughput每小时成功完成的任务数同时惩罚失败和慢动作,更贴近真实部署效率
success rateepisode 成功比例,由人工质量标注聚合得到衡量策略是否可靠,但不单独反映速度

因此, 的实验不能只看“是否成功”。在许多任务中,SFT 策略已经能偶尔成功,但动作慢、反复调整、容易超时;Recap 要证明的是成功率和吞吐都能提升。


8.2 主结果

论文中的对比不是单纯比较“有无 RL”,而是一条逐步增强的基线阶梯:

对比对象作用
Pre-trained 不使用 Recap,作为旧版 VLA 参考
Pre-trained 更强基础模型,但不含优势指示器
RL pre-trained 已在预训练阶段加入价值函数与优势条件
offline RL + SFT用目标任务示教数据微调后的首轮部署策略
+ Recap加入自主执行与纠正数据后的最终策略
AWR / PPO使用相同在线数据,但换成其他策略提取方式

8.2.1 吞吐提升

比较 throughput 时,重点是 offline RL + SFT 到最终 Ours 的差距。这个差距代表目标任务上真实部署数据和纠正数据带来的额外收益。

T-shirt/shorts throughput:成功率接近饱和后,Recap 仍能主要通过提速提升吞吐
T-shirt/shorts throughput:成功率接近饱和后,Recap 仍能主要通过提速提升吞吐
Diverse laundry throughput:长程布料任务中,最终策略相对 SFT 基线提升明显
Diverse laundry throughput:长程布料任务中,最终策略相对 SFT 基线提升明显
Espresso throughput:咖啡任务是 Recap 增益最大的长程例子之一
Espresso throughput:咖啡任务是 Recap 增益最大的长程例子之一
Box assembly throughput:真实工厂纸箱组装任务中,最终策略提升部署效率
Box assembly throughput:真实工厂纸箱组装任务中,最终策略提升部署效率

结果显示,在 diverse laundry 和 espresso 这类较难任务上,加入 on-robot 数据后的最终模型让 throughput 超过 offline RL + SFT 的 2 倍;在较容易的 T-shirt/shorts 上,成功率已经接近上限,但吞吐仍继续上升,说明 Recap 学到的不只是“避免失败”,也包括更快、更少犹豫的执行方式。

8.2.2 成功率

吞吐提升如果只来自更激进的动作,可能会牺牲成功率。因此论文同时报告 success rate。

T-shirt/shorts success rate:SFT 后已接近高成功率,后续主要提升效率
T-shirt/shorts success rate:SFT 后已接近高成功率,后续主要提升效率
Diverse laundry success rate:复杂衣物折叠中,Recap 同时改善成功率和吞吐
Diverse laundry success rate:复杂衣物折叠中,Recap 同时改善成功率和吞吐
Espresso success rate:长流程咖啡任务中,最终模型降低关键失败
Espresso success rate:长流程咖啡任务中,最终模型降低关键失败
Box assembly success rate:论文按取纸板、成盒、贴标、放入 crate 等阶段拆解成功率
Box assembly success rate:论文按取纸板、成盒、贴标、放入 crate 等阶段拆解成功率

在多数任务上,最终 的 success rate 达到 90% 以上;在 diverse laundry 和 espresso 中,失败率相对基线约下降到原来的 1/2 量级。box assembly 的分阶段结果也说明,提升不是集中在某个单一动作,而是覆盖取纸板、成盒、贴标、放置等多个子流程。


8.3 多轮迭代

主结果证明“有效”,消融实验回答“为什么是这套方法”。这里有三组最值得保留的证据:多轮迭代、策略提取方法对比、具体失败模式移除。

Recap 的在线闭环可以重复执行。论文在 T-shirt/shorts 和 box assembly 上展示了两轮迭代:

任务数据协议观察
T-shirt/shorts每轮约 300 条自主轨迹,4 个机器人站点,不使用专家纠正第一轮后成功率已经较高,第二轮主要继续提升 throughput
Box assembly每轮约 600 条自主轨迹 + 360 条纠正轨迹,3 个机器人长程工厂任务需要更多数据,第二轮后 throughput 约达到 2 倍提升
多轮迭代 throughput:T-shirt/shorts 在两轮中持续提速
多轮迭代 throughput:T-shirt/shorts 在两轮中持续提速
多轮迭代 throughput:box assembly 在第二轮后出现明显提升
多轮迭代 throughput:box assembly 在第二轮后出现明显提升
多轮迭代 success rate:T-shirt/shorts 很快达到较高成功率
多轮迭代 success rate:T-shirt/shorts 很快达到较高成功率
多轮迭代 success rate:box assembly 的阶段成功率随迭代继续改善
多轮迭代 success rate:box assembly 的阶段成功率随迭代继续改善

这组结果说明,Recap 不是一次性微调技巧,而是“部署 -> 收集 -> 估值 -> 提取”的迭代系统。更重要的是,不同任务的瓶颈不同:衣物任务可能先到达成功率上限,再通过价值信号学习速度;纸箱任务则需要更多轮数据来减少阶段性失败和超时。

8.4 策略提取

论文还用相同 on-robot 数据比较了三种策略提取方式:

方法训练方式主要问题
Recap advantage conditioning保留全量数据,同时用 标注正/负优势动作能同时利用好经验和坏经验
AWR根据优势加权回归容易弱化低优势样本,行为更慢,吞吐不足
PPO使用近似 likelihood 和 trust-region 约束在离线/混合数据场景下需要很小约束稳定训练,性能提升有限
策略提取消融 throughput:优势条件策略提取明显优于 AWR 和 PPO
策略提取消融 throughput:优势条件策略提取明显优于 AWR 和 PPO
策略提取消融 success rate:AWR / PPO 可达到一定成功率,但整体效率不足
策略提取消融 success rate:AWR / PPO 可达到一定成功率,但整体效率不足

这组消融对应第 6 节的理论动机:Flow Matching Action Expert 不适合直接套标准 PPO,AWR 又更像 filtered imitation。优势条件训练的关键价值在于,它没有把失败和低优势动作简单丢掉,而是让模型学会区分“数据中出现过的普通动作”和“在当前状态下更值得执行的动作”。

8.5 失败模式移除

最后一组实验专门考察“能否移除一个明确失败模式”。任务被设置成固定橙色 T-shirt,严格要求折叠后领口朝上。这个设置比普通成功率更苛刻,因为策略不能只是把衣服大致折起来,还要纠正一个具体偏差。

Failure mode removal success rate:两轮训练后,严格领口朝上标准下成功率达到约 97%
Failure mode removal success rate:两轮训练后,严格领口朝上标准下成功率达到约 97%
Failure mode removal throughput:具体失败模式被压低后,吞吐也同步提升
Failure mode removal throughput:具体失败模式被压低后,吞吐也同步提升

这组实验说明,Recap 不只是提升平均分,还可以把某类部署中反复出现的错误转成奖励和优势信号,再通过策略提取改变后续行为。对真实机器人系统来说,这类“定点修复失败模式”的能力往往比单次 benchmark 分数更有工程价值。


9. 局限

解决了“会学习”的问题,但还没有解决“学习过程完全自治”和“可控技能组合”两类挑战。

论文 Discussion 明确的限制包括:

  1. 系统仍依赖人工参与(奖励标注、纠正、场景复位)。
  2. 探索策略偏朴素,主要依赖策略随机性与人工纠偏。
  3. 当前是迭代离线更新流程,而非并发实时在线 RL。

因此, 更准确的定位是“把 VLA 从一次性训练推进到可迭代自改进”,而不是最终形态。下一讲 将继续沿这条路线,重点转向“如何被指挥地组合已有能力,完成未演示任务”。