对象拆分
先把数据集、方法、平台和模型层拆开,避免把不同对象混成一个标签。
一条样本的生命线
从采集到训练使用的路径,用来判断它距离 robot policy 有多近。
01
各实验室采集真实机器人任务轨迹
02
清洗并转换到统一数据表示
03
记录图像、语言指令、动作和状态字段
04
按机器人、数据集和任务混合采样
05
训练 RT-X 或开源 VLA / policy 模型
06
在 seen / unseen embodiment 与任务上评测泛化
数据结构快读
字段为阅读型归纳,具体 schema 以官方文档、loader 和 dataset card 为准。
| 字段 / 概念 | 人的解释 |
|---|---|
observation.image |
机器人视角或外部相机图像,是策略看世界的主要输入。 |
language_instruction |
自然语言任务描述,把轨迹对齐到可泛化的目标语义。 |
action |
机器人执行的控制命令,跨机器人时需要映射或标准化。 |
episode_metadata |
数据集来源、机器人类型、任务和切分信息。 |
示例切片
- 把某个桌面机械臂的 pick-and-place 轨迹并入跨具身训练混合。
- 用语言指令把不同实验室的相似任务归到可比较任务族。
- 在一个机器人上训练后,检验另一个机器人是否能受益于共享经验。
- 用 OXE 子集作为 OpenVLA 或 Octo 的预训练来源。
谱系定位
它位于真实机器人轨迹层和 VLA/foundation policy 层之间:比 Ego4D 更接近机器人动作,比单实验室数据集更宽,比 OpenVLA/Octo 更偏数据底座而非最终模型。
| 层级 | 项目 / 结果 | 组织背景 | 公开规模 | 数据 / 方法形态 | 与当前项目关系 |
|---|---|---|---|---|---|
| Egocentric video | Ego4D / Ego-Exo4D | Meta / academic consortium | thousands of hours human video | human video, narration, pose, multi-view context | 上游人类经验层,没有直接机器人动作。 |
| Real robot data | DROID | UC Berkeley / collaborators | 76k trajectories / 350h | in-the-wild robot manipulation episodes | 比 OXE 更集中,强调社区采集和真实家庭/办公场景。 |
| Cross-robot data | Open X-Embodiment | Google DeepMind + 33 labs | 1M+ trajectories / 22 embodiments | heterogeneous real robot trajectories | 当前页核心对象。 |
| Generalist policy | OpenVLA / Octo | Stanford, UC Berkeley, CMU, etc. | OXE-derived pretraining mixes | VLA / transformer policy checkpoints | 使用 OXE 类数据训练可迁移策略。 |
价值判断
这里区分官方事实、结构性解释和对相邻项目的定位。
三条结论
用于快速决定这个项目在 atlas 中应该放在哪一层。
深链来源
优先官方页面、论文、代码、数据卡和下载文档。