Physical AI data infrastructure

Ropedia

Ropedia 不是单个机器人算法,而是一套围绕真实人类 4D Xperience 的数据基础设施: 用 HOMIE 采集人类第一视角和空间行为,用 Xperience-10M 发布大规模多模态数据,再用工具包读出 HDF5/视频供世界模型、Real2Sim 和 VLA 使用。

10Minteraction episodes
10k hvideo with audio
2.88BRGB frames
~1PBtotal storage

先把对象拆清楚

读 Ropedia 最容易混的点是:Ropedia、HOMIE、Xperience-10M、HOMIE-toolkit 分别是不同层级。

Ropedia

平台 / 公司 / 叙事框架

它的主张是 physical AI 需要真实人类 Xperience:不仅是看图和视频,而是带动作、意图、空间和物理后果的人类经验。

HOMIE

采集硬件和软件栈

官方介绍为 head-mounted, human-centric capture platform,负责多模态同步采集、定位、深度、手物交互和全身动捕等结构化处理。

Xperience-10M

数据集 release

大规模 4D human experience dataset,覆盖 video、audio、depth、pose、motion capture、inertial sensing 和 language annotation。

HOMIE-toolkit

读取和可视化工具

GitHub 工具包用于加载 annotation.hdf5、读取视频帧、生成 depth colormap、点云、骨架,并可导出 Rerun 可视化。

一条 Xperience 数据的一生

Ropedia 的核心不是“又一个视频库”,而是把真实世界里的人类行为同步成 4D、多模态、可重放的数据记录。

1
人戴着 HOMIE 在真实环境中活动家、办公室、街道和公共空间里的自然行为,不是只在实验室 studio 内布置好的动作。
2
多模态信号共同采集RGB、audio、depth、camera pose、MoCap、IMU 和语言标注围绕同一条时间轴组织。
3
50µs 级同步和空间结构化官方 release 强调不是后拼接,而是 co-captured 并带精细时间戳,支持跨模态学习。
4
打包成 episode 文件夹样例和 toolkit 指向的视频文件 + annotation.hdf5 结构,集中存放 calibration、slam、depth、mocap、imu、caption 等。
5
被模型 ReXperience面向 world models、Real2Sim 和 VLA models:让模型反复“重放”真实人类经验,学习空间、动作和物理后果。
HDF5 / annotation.hdf5 是什么风格

HDF5 是层级式二进制数据容器,适合把数组、元数据和分组放进同一个文件。Ropedia 的样例结构里,视频是独立 .mp4,多模态标注集中在 annotation.hdf5

这和 EgoVerse 的 Zarr 风格不同:Zarr 更像云端分块数组目录;HDF5 更像一个集中式层级文件。Ropedia 这里用 HDF5 承载 calibration、SLAM、深度、动捕、IMU、caption 等同步数组。

50µs 同步为什么重要

对 physical AI 来说,图像、深度、IMU、人体动作和语言如果时间错位,模型会学到错误的因果关系。50µs 级同步的意义是让“看到某物、身体移动、手接近、环境变化”在训练中保持可对齐。

数据结构速读

一个 episode 文件夹里看什么

fisheye_cam0-3.mp4多路鱼眼/全景方向视频,表达人周围的场景上下文。
stereo_left/right.mp4双目视频,可与 depth、point cloud 和空间重建结合。
annotation.hdf5核心标注容器,HOMIE-toolkit 读取 calibration、slam、depth、mocap、imu、caption。
calibration相机内参、外参、相机到设备/身体坐标的变换。
slam相机轨迹、旋转平移、frame names 和 point cloud。
hand/full_body_mocap手部关节、全身 keypoints、接触和姿态数据。
imu加速度、陀螺仪和时间戳,高频运动信号。
caption语言描述,官方 release 强调空间和时间锚定。
样例切片 1:coffee making sampleHugging Face sample 以 coffee-making 为例,提供可下载的 episode 结构,用于检验 toolkit。
样例切片 2:手物交互同一帧附近可同时读 RGB、hand_mocap、depth 和 caption,观察手如何接近并操作物体。
样例切片 3:空间轨迹slam 组读取相机轨迹和点云,重建人在场景中的移动路径。
样例切片 4:Rerun 可视化HOMIE-toolkit 示例把 skeleton + depth 写入 .rrd,用 Rerun 打开。
访问和许可有什么需要注意

Ropedia release 页面强调 Xperience-10M 在 Hugging Face 上开放访问;Hugging Face 数据卡当前显示 full dataset 是 controlled access,sample 数据可下载且带非商业许可约束。实际使用时应以数据卡和申请条款为准。

它和 EgoVerse 的差别

两者都从人类第一视角出发,但目标层不同:EgoVerse 更贴近机器人策略共训练;Ropedia 更像 4D human experience 基础数据层。

Ropedia

经验宇宙层

重点是捕捉真实人类 Xperience 的多模态连续记录:RGB、深度、IMU、动捕、轨迹、语言。它服务 world models、Real2Sim、VLA 等多个方向。

EgoVerse

机器人共训练层

重点是把人类第一视角示范变成可用于 robot co-training 的标准 episode,字段和训练脚本更直接服务策略学习。

DROID / Open X

真实机器人 action 层

直接记录机器人状态、动作和任务结果,离 policy supervision 最近,但采集成本和平台覆盖限制更强。

谱系位置

Ropedia 站在 egocentric video 与 robot trajectory 之间,但比 Ego4D 更重多模态空间信号,比 DROID 更远离直接机器人 action。

Ego4D 第一视角视频理解,强在生活场景和活动语义,弱在深度/IMU/动捕与 robot policy 接口。 视频理解层
Ropedia / Xperience-10M 4D human experience:同步视频、音频、深度、pose、MoCap、IMU、语言,面向 physical AI pretraining。 4D 经验数据层
EgoVerse 人类第一视角示范转机器人共训练,带标准 episode、registry 和训练代码。 human-to-robot 层
DROID / Open X 真实机器人观察-动作轨迹,更直接训练 VLA / imitation learning。 robot action 层
pi0.5 / Gemini Robotics 前沿机器人基础模型栈,通常吸收真实机器人、视频、仿真和私有数据。 模型栈层

2025-2026 大表

用同一张表看 Ropedia 和相邻数据/算法成果的边界。

层级 项目 / 成果 所属 / 背景 公开量级 核心数据 / 方法形态 和 Ropedia 的关系
L1 第一视角视频理解 Ego4D Meta / academic consortium 官方口径约 3,670 小时第一视角视频 egocentric video、narration、activity understanding benchmarks Ropedia 往多模态 4D 经验推进:depth、pose、MoCap、IMU、language alignment 更核心。
L1.5 Ego-Exo 多视角 Ego-Exo4D Meta / consortium 大规模 ego + exo 多视角技能数据 第一视角、第三视角、3D/pose/技能标注 和 Ropedia 都强调真实人类技能和空间信号;Ropedia 叙事更面向 physical AI 数据基础设施。
L2 4D human experience Xperience-10M Ropedia dataset release 10M episodes、10k 小时、2.88B RGB、720M depth、576M poses/MoCap、7.2B IMU、~1PB HOMIE co-captured multimodal data + language + HDF5 annotations 本页主角:物理世界人类经验的基础数据层。
L2 工具链 HOMIE-toolkit Ropedia GitHub 读取 sample/full dataset 的工具入口 annotation.hdf5 loader、视频帧读取、depth/point cloud/skeleton/Rerun 可视化 让 Xperience-10M 从 release 变成可用数据,而不是只看 demo。
L3 human-to-robot EgoVerse Georgia Tech / consortium 当前官方页口径:1,362 小时、~80k episodes、1,965 tasks、240 scenes、2,087 demonstrators Zarr v3 episode、head pose、hand pose/keypoints、language annotations、training pipeline 比 Ropedia 更靠近机器人共训练;Ropedia 更大更广,但离 robot action 监督更远。
L4 robot trajectories DROID 多机构真实机器人数据 官方口径约 76k demonstrations、350 小时 机器人相机、状态、动作、语言、成功信息 比 Ropedia 更直接训练控制策略;Ropedia 更适合前置空间/行为表征和世界模型。
L4 cross-robot trajectories Open X-Embodiment / RT-X Google / DeepMind 等多机构 官方项目页口径 22 robot embodiments、1M+ trajectories 跨机器人平台 observation-action trajectories 解决跨机器人 action 泛化;Ropedia 解决真实人类经验的多模态规模化。
L4 simulation/control RoboCasa 机器人仿真家庭任务环境 官方文档提供 100+ tasks 和丰富场景/物体组合 仿真 state、action、reward、任务配置 Ropedia 可以为 Real2Sim 提供真实行为和场景分布;RoboCasa 提供可控闭环环境。
L5 VLA/open policy OpenVLA / Octo 开放 VLA / generalist robot policy 基于大规模 robot trajectory corpora 训练 视觉-语言-动作模型 Ropedia 本身不是 action model,但可作为 VLA 前置表征、world model 或 real2sim 数据源。
L6 frontier stacks pi0.5 / Gemini Robotics / GR00T N1 Physical Intelligence / Google DeepMind / NVIDIA 多为私有机器人、仿真、web/video 和合成数据混合 机器人基础模型或 humanoid/VLA 模型栈 Ropedia 这类大规模 4D human data 是这些栈可能吸收的数据层,不是同级模型。

价值判断

Ropedia 的强项在数据“宽度与同步密度”,短板在它不是直接机器人 action corpus。

强项

真实 4D human experience

视频、深度、IMU、MoCap、轨迹和语言被同一采集系统组织起来,适合世界模型和空间表征预训练。

短板

没有天然机器人动作标签

它记录的是人类经验,不是机器人关节或夹爪命令。要训练 robot policy,仍需重定向、对齐或配合机器人轨迹数据。

验证标准

看它能否改善下游泛化

最有说服力的证据是:加入 Ropedia 预训练后,world model、Real2Sim 或 VLA 在真实新场景中稳定提升。

一句话记住:Ropedia 想做的不是“收更多视频”,而是把真实人类经验变成 physical AI 可以反复重放和学习的 4D 数据底座。

资料核对日期
2026-05-12

三个 takeaway

01

先区分四个对象

Ropedia 是平台,HOMIE 是采集栈,Xperience-10M 是数据集,HOMIE-toolkit 是读取和可视化工具。

02

它比 Ego4D 更“物理”

它不仅有第一视角视频,还强调 depth、pose、MoCap、IMU、语言和 50µs 同步。

03

它比 DROID 更“前置”

它不直接给机器人 action,但可作为世界模型、Real2Sim 和 VLA 的大规模经验预训练数据。