Ropedia / Xperience-10M 全局说明页

先把对象拆清楚

读 Ropedia 最容易混的点是：Ropedia、HOMIE、Xperience-10M、HOMIE-toolkit 分别是不同层级。

Ropedia

平台 / 公司 / 叙事框架

它的主张是 physical AI 需要真实人类 Xperience：不仅是看图和视频，而是带动作、意图、空间和物理后果的人类经验。

HOMIE

采集硬件和软件栈

官方介绍为 head-mounted, human-centric capture platform，负责多模态同步采集、定位、深度、手物交互和全身动捕等结构化处理。

Xperience-10M

数据集 release

大规模 4D human experience dataset，覆盖 video、audio、depth、pose、motion capture、inertial sensing 和 language annotation。

HOMIE-toolkit

读取和可视化工具

GitHub 工具包用于加载 annotation.hdf5、读取视频帧、生成 depth colormap、点云、骨架，并可导出 Rerun 可视化。

一条 Xperience 数据的一生

Ropedia 的核心不是“又一个视频库”，而是把真实世界里的人类行为同步成 4D、多模态、可重放的数据记录。

1

人戴着 HOMIE 在真实环境中活动家、办公室、街道和公共空间里的自然行为，不是只在实验室 studio 内布置好的动作。

2

多模态信号共同采集RGB、audio、depth、camera pose、MoCap、IMU 和语言标注围绕同一条时间轴组织。

3

50µs 级同步和空间结构化官方 release 强调不是后拼接，而是 co-captured 并带精细时间戳，支持跨模态学习。

4

打包成 episode 文件夹样例和 toolkit 指向的视频文件 + annotation.hdf5 结构，集中存放 calibration、slam、depth、mocap、imu、caption 等。

5

被模型 ReXperience面向 world models、Real2Sim 和 VLA models：让模型反复“重放”真实人类经验，学习空间、动作和物理后果。

HDF5 / annotation.hdf5 是什么风格

HDF5 是层级式二进制数据容器，适合把数组、元数据和分组放进同一个文件。Ropedia 的样例结构里，视频是独立 .mp4，多模态标注集中在 annotation.hdf5。

这和 EgoVerse 的 Zarr 风格不同：Zarr 更像云端分块数组目录；HDF5 更像一个集中式层级文件。Ropedia 这里用 HDF5 承载 calibration、SLAM、深度、动捕、IMU、caption 等同步数组。

50µs 同步为什么重要

对 physical AI 来说，图像、深度、IMU、人体动作和语言如果时间错位，模型会学到错误的因果关系。50µs 级同步的意义是让“看到某物、身体移动、手接近、环境变化”在训练中保持可对齐。

数据结构速读

一个 episode 文件夹里看什么

fisheye_cam0-3.mp4多路鱼眼/全景方向视频，表达人周围的场景上下文。

stereo_left/right.mp4双目视频，可与 depth、point cloud 和空间重建结合。

annotation.hdf5核心标注容器，HOMIE-toolkit 读取 calibration、slam、depth、mocap、imu、caption。

calibration相机内参、外参、相机到设备/身体坐标的变换。

slam相机轨迹、旋转平移、frame names 和 point cloud。

hand/full_body_mocap手部关节、全身 keypoints、接触和姿态数据。

imu加速度、陀螺仪和时间戳，高频运动信号。

caption语言描述，官方 release 强调空间和时间锚定。

样例切片 1：coffee making sampleHugging Face sample 以 coffee-making 为例，提供可下载的 episode 结构，用于检验 toolkit。

样例切片 2：手物交互同一帧附近可同时读 RGB、hand_mocap、depth 和 caption，观察手如何接近并操作物体。

样例切片 3：空间轨迹从 slam 组读取相机轨迹和点云，重建人在场景中的移动路径。

样例切片 4：Rerun 可视化HOMIE-toolkit 示例把 skeleton + depth 写入 .rrd，用 Rerun 打开。

访问和许可有什么需要注意

Ropedia release 页面强调 Xperience-10M 在 Hugging Face 上开放访问；Hugging Face 数据卡当前显示 full dataset 是 controlled access，sample 数据可下载且带非商业许可约束。实际使用时应以数据卡和申请条款为准。

它和 EgoVerse 的差别

两者都从人类第一视角出发，但目标层不同：EgoVerse 更贴近机器人策略共训练；Ropedia 更像 4D human experience 基础数据层。

Ropedia

经验宇宙层

重点是捕捉真实人类 Xperience 的多模态连续记录：RGB、深度、IMU、动捕、轨迹、语言。它服务 world models、Real2Sim、VLA 等多个方向。

EgoVerse

机器人共训练层

重点是把人类第一视角示范变成可用于 robot co-training 的标准 episode，字段和训练脚本更直接服务策略学习。

DROID / Open X

真实机器人 action 层

直接记录机器人状态、动作和任务结果，离 policy supervision 最近，但采集成本和平台覆盖限制更强。

谱系位置

Ropedia 站在 egocentric video 与 robot trajectory 之间，但比 Ego4D 更重多模态空间信号，比 DROID 更远离直接机器人 action。

Ego4D 第一视角视频理解，强在生活场景和活动语义，弱在深度/IMU/动捕与 robot policy 接口。视频理解层

Ropedia / Xperience-10M 4D human experience：同步视频、音频、深度、pose、MoCap、IMU、语言，面向 physical AI pretraining。 4D 经验数据层

EgoVerse 人类第一视角示范转机器人共训练，带标准 episode、registry 和训练代码。 human-to-robot 层

DROID / Open X 真实机器人观察-动作轨迹，更直接训练 VLA / imitation learning。 robot action 层

pi0.5 / Gemini Robotics 前沿机器人基础模型栈，通常吸收真实机器人、视频、仿真和私有数据。模型栈层

2025-2026 大表

用同一张表看 Ropedia 和相邻数据/算法成果的边界。

层级	项目 / 成果	所属 / 背景	公开量级	核心数据 / 方法形态	和 Ropedia 的关系
L1 第一视角视频理解	Ego4D	Meta / academic consortium	官方口径约 3,670 小时第一视角视频	egocentric video、narration、activity understanding benchmarks	Ropedia 往多模态 4D 经验推进：depth、pose、MoCap、IMU、language alignment 更核心。
L1.5 Ego-Exo 多视角	Ego-Exo4D	Meta / consortium	大规模 ego + exo 多视角技能数据	第一视角、第三视角、3D/pose/技能标注	和 Ropedia 都强调真实人类技能和空间信号；Ropedia 叙事更面向 physical AI 数据基础设施。
L2 4D human experience	Xperience-10M	Ropedia dataset release	10M episodes、10k 小时、2.88B RGB、720M depth、576M poses/MoCap、7.2B IMU、~1PB	HOMIE co-captured multimodal data + language + HDF5 annotations	本页主角：物理世界人类经验的基础数据层。
L2 工具链	HOMIE-toolkit	Ropedia GitHub	读取 sample/full dataset 的工具入口	`annotation.hdf5` loader、视频帧读取、depth/point cloud/skeleton/Rerun 可视化	让 Xperience-10M 从 release 变成可用数据，而不是只看 demo。
L3 human-to-robot	EgoVerse	Georgia Tech / consortium	当前官方页口径：1,362 小时、~80k episodes、1,965 tasks、240 scenes、2,087 demonstrators	Zarr v3 episode、head pose、hand pose/keypoints、language annotations、training pipeline	比 Ropedia 更靠近机器人共训练；Ropedia 更大更广，但离 robot action 监督更远。
L4 robot trajectories	DROID	多机构真实机器人数据	官方口径约 76k demonstrations、350 小时	机器人相机、状态、动作、语言、成功信息	比 Ropedia 更直接训练控制策略；Ropedia 更适合前置空间/行为表征和世界模型。
L4 cross-robot trajectories	Open X-Embodiment / RT-X	Google / DeepMind 等多机构	官方项目页口径 22 robot embodiments、1M+ trajectories	跨机器人平台 observation-action trajectories	解决跨机器人 action 泛化；Ropedia 解决真实人类经验的多模态规模化。
L4 simulation/control	RoboCasa	机器人仿真家庭任务环境	官方文档提供 100+ tasks 和丰富场景/物体组合	仿真 state、action、reward、任务配置	Ropedia 可以为 Real2Sim 提供真实行为和场景分布；RoboCasa 提供可控闭环环境。
L5 VLA/open policy	OpenVLA / Octo	开放 VLA / generalist robot policy	基于大规模 robot trajectory corpora 训练	视觉-语言-动作模型	Ropedia 本身不是 action model，但可作为 VLA 前置表征、world model 或 real2sim 数据源。
L6 frontier stacks	pi0.5 / Gemini Robotics / GR00T N1	Physical Intelligence / Google DeepMind / NVIDIA	多为私有机器人、仿真、web/video 和合成数据混合	机器人基础模型或 humanoid/VLA 模型栈	Ropedia 这类大规模 4D human data 是这些栈可能吸收的数据层，不是同级模型。

价值判断

Ropedia 的强项在数据“宽度与同步密度”，短板在它不是直接机器人 action corpus。

强项

真实 4D human experience

视频、深度、IMU、MoCap、轨迹和语言被同一采集系统组织起来，适合世界模型和空间表征预训练。

短板

没有天然机器人动作标签

它记录的是人类经验，不是机器人关节或夹爪命令。要训练 robot policy，仍需重定向、对齐或配合机器人轨迹数据。

验证标准

看它能否改善下游泛化

最有说服力的证据是：加入 Ropedia 预训练后，world model、Real2Sim 或 VLA 在真实新场景中稳定提升。

一句话记住：Ropedia 想做的不是“收更多视频”，而是把真实人类经验变成 physical AI 可以反复重放和学习的 4D 数据底座。

资料核对日期
2026-05-12

三个 takeaway

01

先区分四个对象

Ropedia 是平台，HOMIE 是采集栈，Xperience-10M 是数据集，HOMIE-toolkit 是读取和可视化工具。

02

它比 Ego4D 更“物理”

它不仅有第一视角视频，还强调 depth、pose、MoCap、IMU、语言和 50µs 同步。

03

它比 DROID 更“前置”

它不直接给机器人 action，但可作为世界模型、Real2Sim 和 VLA 的大规模经验预训练数据。

深挖链接

按“官方叙事、数据卡、样例、工具包、相邻项目”组织。

Ropedia Official产品和新闻入口。 Introducing HOMIEHOMIE、Xperience、ReXperience 的官方叙事。 Xperience-10M Release数据集规模、信号栈和用途。 Full Dataset Cardcontrolled access 申请和数据说明。 Sample Dataset可下载样例，用于验证结构和工具包。 HOMIE-toolkitHDF5 loader、视频读取和 Rerun 可视化。 EgoVerse对照：human-to-robot co-training 数据层。 DROID对照：真实机器人轨迹数据。