平台 / 公司 / 叙事框架
它的主张是 physical AI 需要真实人类 Xperience:不仅是看图和视频,而是带动作、意图、空间和物理后果的人类经验。
Physical AI data infrastructure
Ropedia 不是单个机器人算法,而是一套围绕真实人类 4D Xperience 的数据基础设施: 用 HOMIE 采集人类第一视角和空间行为,用 Xperience-10M 发布大规模多模态数据,再用工具包读出 HDF5/视频供世界模型、Real2Sim 和 VLA 使用。
读 Ropedia 最容易混的点是:Ropedia、HOMIE、Xperience-10M、HOMIE-toolkit 分别是不同层级。
它的主张是 physical AI 需要真实人类 Xperience:不仅是看图和视频,而是带动作、意图、空间和物理后果的人类经验。
官方介绍为 head-mounted, human-centric capture platform,负责多模态同步采集、定位、深度、手物交互和全身动捕等结构化处理。
大规模 4D human experience dataset,覆盖 video、audio、depth、pose、motion capture、inertial sensing 和 language annotation。
GitHub 工具包用于加载 annotation.hdf5、读取视频帧、生成 depth colormap、点云、骨架,并可导出 Rerun 可视化。
Ropedia 的核心不是“又一个视频库”,而是把真实世界里的人类行为同步成 4D、多模态、可重放的数据记录。
annotation.hdf5 结构,集中存放 calibration、slam、depth、mocap、imu、caption 等。HDF5 是层级式二进制数据容器,适合把数组、元数据和分组放进同一个文件。Ropedia 的样例结构里,视频是独立 .mp4,多模态标注集中在 annotation.hdf5。
这和 EgoVerse 的 Zarr 风格不同:Zarr 更像云端分块数组目录;HDF5 更像一个集中式层级文件。Ropedia 这里用 HDF5 承载 calibration、SLAM、深度、动捕、IMU、caption 等同步数组。
对 physical AI 来说,图像、深度、IMU、人体动作和语言如果时间错位,模型会学到错误的因果关系。50µs 级同步的意义是让“看到某物、身体移动、手接近、环境变化”在训练中保持可对齐。
slam 组读取相机轨迹和点云,重建人在场景中的移动路径。.rrd,用 Rerun 打开。Ropedia release 页面强调 Xperience-10M 在 Hugging Face 上开放访问;Hugging Face 数据卡当前显示 full dataset 是 controlled access,sample 数据可下载且带非商业许可约束。实际使用时应以数据卡和申请条款为准。
两者都从人类第一视角出发,但目标层不同:EgoVerse 更贴近机器人策略共训练;Ropedia 更像 4D human experience 基础数据层。
重点是捕捉真实人类 Xperience 的多模态连续记录:RGB、深度、IMU、动捕、轨迹、语言。它服务 world models、Real2Sim、VLA 等多个方向。
重点是把人类第一视角示范变成可用于 robot co-training 的标准 episode,字段和训练脚本更直接服务策略学习。
直接记录机器人状态、动作和任务结果,离 policy supervision 最近,但采集成本和平台覆盖限制更强。
Ropedia 站在 egocentric video 与 robot trajectory 之间,但比 Ego4D 更重多模态空间信号,比 DROID 更远离直接机器人 action。
用同一张表看 Ropedia 和相邻数据/算法成果的边界。
| 层级 | 项目 / 成果 | 所属 / 背景 | 公开量级 | 核心数据 / 方法形态 | 和 Ropedia 的关系 |
|---|---|---|---|---|---|
| L1 第一视角视频理解 | Ego4D | Meta / academic consortium | 官方口径约 3,670 小时第一视角视频 | egocentric video、narration、activity understanding benchmarks | Ropedia 往多模态 4D 经验推进:depth、pose、MoCap、IMU、language alignment 更核心。 |
| L1.5 Ego-Exo 多视角 | Ego-Exo4D | Meta / consortium | 大规模 ego + exo 多视角技能数据 | 第一视角、第三视角、3D/pose/技能标注 | 和 Ropedia 都强调真实人类技能和空间信号;Ropedia 叙事更面向 physical AI 数据基础设施。 |
| L2 4D human experience | Xperience-10M | Ropedia dataset release | 10M episodes、10k 小时、2.88B RGB、720M depth、576M poses/MoCap、7.2B IMU、~1PB | HOMIE co-captured multimodal data + language + HDF5 annotations | 本页主角:物理世界人类经验的基础数据层。 |
| L2 工具链 | HOMIE-toolkit | Ropedia GitHub | 读取 sample/full dataset 的工具入口 | annotation.hdf5 loader、视频帧读取、depth/point cloud/skeleton/Rerun 可视化 |
让 Xperience-10M 从 release 变成可用数据,而不是只看 demo。 |
| L3 human-to-robot | EgoVerse | Georgia Tech / consortium | 当前官方页口径:1,362 小时、~80k episodes、1,965 tasks、240 scenes、2,087 demonstrators | Zarr v3 episode、head pose、hand pose/keypoints、language annotations、training pipeline | 比 Ropedia 更靠近机器人共训练;Ropedia 更大更广,但离 robot action 监督更远。 |
| L4 robot trajectories | DROID | 多机构真实机器人数据 | 官方口径约 76k demonstrations、350 小时 | 机器人相机、状态、动作、语言、成功信息 | 比 Ropedia 更直接训练控制策略;Ropedia 更适合前置空间/行为表征和世界模型。 |
| L4 cross-robot trajectories | Open X-Embodiment / RT-X | Google / DeepMind 等多机构 | 官方项目页口径 22 robot embodiments、1M+ trajectories | 跨机器人平台 observation-action trajectories | 解决跨机器人 action 泛化;Ropedia 解决真实人类经验的多模态规模化。 |
| L4 simulation/control | RoboCasa | 机器人仿真家庭任务环境 | 官方文档提供 100+ tasks 和丰富场景/物体组合 | 仿真 state、action、reward、任务配置 | Ropedia 可以为 Real2Sim 提供真实行为和场景分布;RoboCasa 提供可控闭环环境。 |
| L5 VLA/open policy | OpenVLA / Octo | 开放 VLA / generalist robot policy | 基于大规模 robot trajectory corpora 训练 | 视觉-语言-动作模型 | Ropedia 本身不是 action model,但可作为 VLA 前置表征、world model 或 real2sim 数据源。 |
| L6 frontier stacks | pi0.5 / Gemini Robotics / GR00T N1 | Physical Intelligence / Google DeepMind / NVIDIA | 多为私有机器人、仿真、web/video 和合成数据混合 | 机器人基础模型或 humanoid/VLA 模型栈 | Ropedia 这类大规模 4D human data 是这些栈可能吸收的数据层,不是同级模型。 |
Ropedia 的强项在数据“宽度与同步密度”,短板在它不是直接机器人 action corpus。
视频、深度、IMU、MoCap、轨迹和语言被同一采集系统组织起来,适合世界模型和空间表征预训练。
它记录的是人类经验,不是机器人关节或夹爪命令。要训练 robot policy,仍需重定向、对齐或配合机器人轨迹数据。
最有说服力的证据是:加入 Ropedia 预训练后,world model、Real2Sim 或 VLA 在真实新场景中稳定提升。
一句话记住:Ropedia 想做的不是“收更多视频”,而是把真实人类经验变成 physical AI 可以反复重放和学习的 4D 数据底座。
资料核对日期Ropedia 是平台,HOMIE 是采集栈,Xperience-10M 是数据集,HOMIE-toolkit 是读取和可视化工具。
它不仅有第一视角视频,还强调 depth、pose、MoCap、IMU、语言和 50µs 同步。
它不直接给机器人 action,但可作为世界模型、Real2Sim 和 VLA 的大规模经验预训练数据。
按“官方叙事、数据卡、样例、工具包、相邻项目”组织。