truhue.ai embodied data atlas

RH20T

RH20T 是真实机器人 manipulation 数据集,强调多模态传感、接触信号和人类示范到机器人操作的配对。

它补的是纯视觉/动作数据的短板:许多真实操作成败取决于力、接触、声音和操作过程,而不仅是图像。

官方项目页与论文信息核对于 2026-05-18。

110k+ manipulation sequences
147 tasks
7 robot configurations
40 TB original raw data

对象拆分

先把数据集、方法、平台和模型层拆开,避免把不同对象混成一个标签。

RH20T 真实机器人数据集 以多模态机器人操作序列为核心。
Contact-rich 接触丰富 适合抓取、插入、旋拧等依赖力与接触的任务。
Human + robot 示范关系 把人类示范和机器人执行放在同一数据生态里。
不是 纯视觉 benchmark 它的价值恰恰在视觉之外的接触和传感信号。

一条样本的生命线

从采集到训练使用的路径,用来判断它距离 robot policy 有多近。

01 人类示范或机器人执行接触丰富任务
02 多相机、力传感、音频和状态同步记录
03 整理为序列级别任务数据
04 按配置、任务和模态提供 API / 下载
05 用于模仿学习、多模态表示或策略评测
06 分析视觉之外的接触反馈是否提升泛化

数据结构快读

字段为阅读型归纳,具体 schema 以官方文档、loader 和 dataset card 为准。

字段 / 概念 人的解释
rgb / depth 视觉观察,记录场景、物体和机器人状态。
force_torque 接触力和力矩,帮助判断是否成功接触或插入。
audio 操作声音,可辅助识别接触、碰撞或完成状态。
robot_action 机器人执行命令和状态轨迹。
示例切片
  • 插入、装配或旋转类任务中利用 force/torque 判断接触状态。
  • 对同一任务比较人类示范和机器人执行的差异。
  • 用音频信号判断物体碰撞、落位或工具接触。
  • 训练需要视觉 + 力反馈的 manipulation policy。

谱系定位

RH20T 属于真实机器人轨迹层,但与 DROID/OXE 的差别在多模态和接触:它更适合解释为什么机器人数据不能只看视频小时数。

层级 项目 / 结果 组织背景 公开规模 数据 / 方法形态 与当前项目关系
Egocentric human data EgoVerse Georgia Tech / collaborators 1,362 h demonstrations human egocentric episodes 人类视角近,机器人动作弱。
In-the-wild robot data DROID UC Berkeley + collaborators 76k trajectories robot image-action trajectories 真实场景强,但接触多模态不是核心定位。
Contact-rich robot data RH20T research consortium 110k+ sequences vision, force, audio, action, human/robot demos 当前页核心对象。
Cross-robot data Open X-Embodiment Google DeepMind + 33 labs 1M+ trajectories heterogeneous robot data mix 更大更广,但单个模态深度不一定同 RH20T。

价值判断

这里区分官方事实、结构性解释和对相邻项目的定位。

最强贡献 把接触、力和音频纳入大规模机器人操作数据讨论。
不解决 不等同于开放世界泛化,任务和硬件覆盖仍有边界。
战略意义 它提醒 generalist policy 需要多模态物理反馈,而不只是视觉语言。

三条结论

用于快速决定这个项目在 atlas 中应该放在哪一层。

01 RH20T 是多模态接触丰富机器人数据集。
02 它的重点是 force/audio/action 与视觉同步,而不是最大规模。
03 在 atlas 中它补齐真实操作里最容易被忽略的接触信号层。