对象拆分
先把数据集、方法、平台和模型层拆开,避免把不同对象混成一个标签。
一条样本的生命线
从采集到训练使用的路径,用来判断它距离 robot policy 有多近。
01
人类示范或机器人执行接触丰富任务
02
多相机、力传感、音频和状态同步记录
03
整理为序列级别任务数据
04
按配置、任务和模态提供 API / 下载
05
用于模仿学习、多模态表示或策略评测
06
分析视觉之外的接触反馈是否提升泛化
数据结构快读
字段为阅读型归纳,具体 schema 以官方文档、loader 和 dataset card 为准。
| 字段 / 概念 | 人的解释 |
|---|---|
rgb / depth |
视觉观察,记录场景、物体和机器人状态。 |
force_torque |
接触力和力矩,帮助判断是否成功接触或插入。 |
audio |
操作声音,可辅助识别接触、碰撞或完成状态。 |
robot_action |
机器人执行命令和状态轨迹。 |
示例切片
- 插入、装配或旋转类任务中利用 force/torque 判断接触状态。
- 对同一任务比较人类示范和机器人执行的差异。
- 用音频信号判断物体碰撞、落位或工具接触。
- 训练需要视觉 + 力反馈的 manipulation policy。
谱系定位
RH20T 属于真实机器人轨迹层,但与 DROID/OXE 的差别在多模态和接触:它更适合解释为什么机器人数据不能只看视频小时数。
| 层级 | 项目 / 结果 | 组织背景 | 公开规模 | 数据 / 方法形态 | 与当前项目关系 |
|---|---|---|---|---|---|
| Egocentric human data | EgoVerse | Georgia Tech / collaborators | 1,362 h demonstrations | human egocentric episodes | 人类视角近,机器人动作弱。 |
| In-the-wild robot data | DROID | UC Berkeley + collaborators | 76k trajectories | robot image-action trajectories | 真实场景强,但接触多模态不是核心定位。 |
| Contact-rich robot data | RH20T | research consortium | 110k+ sequences | vision, force, audio, action, human/robot demos | 当前页核心对象。 |
| Cross-robot data | Open X-Embodiment | Google DeepMind + 33 labs | 1M+ trajectories | heterogeneous robot data mix | 更大更广,但单个模态深度不一定同 RH20T。 |
价值判断
这里区分官方事实、结构性解释和对相邻项目的定位。
三条结论
用于快速决定这个项目在 atlas 中应该放在哪一层。
深链来源
优先官方页面、论文、代码、数据卡和下载文档。