Human egocentric data for robot learning

EgoVerse

一个把真实人类第一视角操作转成机器人学习数据的协作型数据生态。 它不只是视频库,而是围绕人类示范、3D 手部/头部轨迹、语言标注和 human-to-robot transfer 的标准化数据基础设施。

1,362小时人类示范
~80kepisodes
1,965任务
240场景
2,087独立示范者
一句话定义

人类第一视角示范数据生态

EgoVerse 把人类在真实场景中做任务的第一视角记录,整理成机器人学习可消费的 episode、轨迹和标注。

它补的缺口

真机机器人数据太贵太慢

人类日常操作天然覆盖大量物体、场景和长程任务。EgoVerse 用更低采集成本建立行为先验,再和机器人数据对齐。

它不是什么

不是纯机器人 action 数据

它没有天然的机器人关节/夹爪动作标签。它的关键难题是把 human hand/head trajectories 转成机器人可用监督。

一条数据的一生

用这条线索读 EgoVerse,认知成本最低:先看真实动作如何被捕捉,再看它如何变成训练样本。

1
人类执行真实任务厨房、桌面、收纳、装袋、整理、操作工具等日常任务。
2
第一视角设备记录RGB 视频、设备/头部 6-DOF pose、SLAM 轨迹,部分数据包含眼动。
3
手部和语言被对齐左右手 wrist pose、3D keypoints、动作片段语言标注被对齐到 episode 时间轴。
4
写入统一数据格式官方工具链把不同来源转成 Zarr v3 风格的标准 episode,便于批量训练。
5
和机器人数据共同训练用于 ACT / ALOHAEgoMimicHPTPi / OpenPI 等策略训练和 human-to-robot transfer 研究。
Zarr v3 风格的标准 episode 是什么意思

Zarr 是面向大规模 N 维数组的分块存储格式:数组被切成 chunks,配合元数据、压缩和云对象存储,可以不用一次性读完整文件就按需读取某段时间、某个相机或某个 pose 流。

EgoVerse 采用的是“一个 episode 一个 .zarr 目录”的组织方式。目录里有 images.front_1/obs_head_pose/left.obs_keypoints/annotations/ 等数组;顶层 zarr.json 和 attrs 保存 fpstotal_framestask_nameembodiment 等元数据。

它的背景是机器人训练数据越来越像“多路同步时序数据库”:视频、姿态、语言、手部 keypoints 都要按 frame 对齐。Zarr v3 风格让这些多模态数组可以被远程索引、懒加载、批量训练和校验。

为什么不直接用普通 mp4 + json

mp4 + json 适合人看和离线处理,但训练时经常需要随机取样、跨 episode 过滤、按字段拼 batch、只读某个相机或某段动作。Zarr 的优势是把“一个 episode 的所有同步信号”变成结构化数组仓库,适合分布式训练和云端数据管线。

数据结构速读

一个 episode 里应该看什么

images.front_1第一视角 RGB 帧,是模型看到的主视觉流。
obs_head_pose头部/设备相机 pose,描述人是从哪里、以什么姿态看世界。
obs_ee_pose左右手或末端执行器式 pose,可作为机器人动作先验的桥。
obs_keypoints手部 3D keypoints,帮助恢复抓取、接近、移动、释放等动作模式。
annotations分段语言标注,把连续视频切成可学习的语义动作片段。
metadata任务、场景、物体、示范者、设备和采集条件。
示例 1:fold_clothes task_description: folding a 2T baby shirt;常见 annotation 包括 grasping collar、laying shirt flat、folding left sleeve、folding body。
示例 2:object_in_container 第一视角看到桌面物体和容器;right.obs_ee_pose 记录右手接近、抓取、移动、放入容器的 6-DOF 轨迹。
示例 3:bag_grocery 长程任务,包含打开袋子、抓取物体、避开袋口遮挡、放入袋中等阶段;适合测 human-to-robot long-horizon transfer。
示例 4:cup_on_saucer 双手或精细操作任务,用来观察第一视角视觉、手部 pose 和目标物相对关系如何支撑 bimanual precision。
字段里的 pose / keypoints 具体怎么理解

obs_head_pose 是第一视角设备在 SLAM 世界坐标里的 6-DOF 姿态。训练时,EgoVerse 会把左右手 pose 重新表达成 head-relative frame,让不同房间、不同起点的数据可以对齐到“当前佩戴者视角”。

left/right.obs_keypoints 通常是 21 个手部 3D landmarks 乘以 3 个坐标维度,flatten 成 (T, 63)。它比单个手腕点更能表达手型、抓取状态和接触前动作。

它在具身数据谱系里的位置

EgoVerse 的准确位置不是“普通视频”,也不是“纯机器人遥操作”,而是两者之间的 human-to-robot data layer。

Ego4D

第一视角视频理解层

Ego4D 的中心是人类第一视角生活视频和视频理解 benchmark:看过什么、做过什么、接下来可能发生什么。它有强 egocentric 视觉,但不以机器人动作训练格式为中心。

EgoDex

手部灵巧操作层

EgoDex 更聚焦人手灵巧操作和 dexterous manipulation,强调手部、物体和抓取动作,但项目目标仍更接近从人类 egocentric 经验学习操作先验。

EgoVerse

机器人共训练层

EgoVerse 把第一视角示范推进到机器人训练接口:Zarr episode、统一 embodiment id、SQL registry、训练脚本、co-training 和跨机器人评估。

互联网视频 / VLM 数据 覆盖广,但缺少动作、相机 pose、手部 3D 结构和机器人训练接口。 低成本 / 弱具身
Ego4D / EgoDex 类第一视角数据 更接近人类真实行为,适合视频理解、手部动作、长程活动建模,但训练接口通常不等价于机器人 policy dataset。 强视觉 / 弱机器人
EgoVerse 把第一视角人类示范标准化为机器人学习数据,并明确研究 human-to-robot transfer。 人类示范 -> 机器人学习
DROID / Open X / AgiBot 真实机器人状态、动作、相机和任务结果,更直接服务 imitation learning 和 VLA。 高价值 / 高成本
GR00T / Gemini Robotics / pi0.5 完整机器人基础模型栈,通常混合真实机器人、仿真、网页和合成数据。 前沿模型栈

2025-2026 谱系大表

这张表把“它属于哪一层、数据量级、背景、和 EgoVerse 的差别”放在同一个视野里。量级按公开项目页/论文页口径整理,随版本会变化。

层级 项目 / 成果 所属 / 背景 公开量级 核心数据形态 和 EgoVerse 的关系
L0 普通视频 / VLM 语料 互联网视频、网页图文、VLM pretraining corpus 跨来源互联网语料 通常 web-scale,但来源和字段不统一 视频、图文、字幕、网页结构 语义覆盖强,但缺少头部 pose、手部 3D、机器人训练接口。
L1 第一视角视频理解 Ego4D Meta / academic consortium,面向 egocentric video understanding 官方口径约 3,670 小时第一视角视频,跨大量场景和采集者 第一视角视频、叙事、活动、记忆/预测/社交等 benchmark 更像“人类第一视角世界理解基座”;EgoVerse 更进一步把数据结构接到机器人 co-training。
L1.5 Ego-Exo 配对理解 Ego-Exo4D Meta / consortium,第一视角与第三视角同步采集 官方称大规模多视角技能活动数据 ego video + exo video + 3D/pose/annotation 更适合研究“人怎么做技能”和多视角理解;EgoVerse 更明确输出机器人训练 episode。
L2 灵巧手部 egocentric EgoDex Apple,面向从 egocentric video 学习 dexterous manipulation 以论文/项目页版本为准 第一视角手部操作、物体交互、dexterity-oriented annotations 更聚焦手部灵巧动作;EgoVerse 把类似先验纳入更广的机器人共训练和数据平台。
L3 Human-to-robot 数据层 EgoVerse Georgia Tech / consortium,机器人学习数据生态 官方页当前口径:1,362 小时、约 80k episodes、1,965 任务、240 场景、2,087 示范者 RGB、head pose、hand pose/keypoints、language annotations、Zarr v3 episode 本页主角:位于 egocentric video 与 robot trajectory dataset 之间。
L3 配套算法 EgoMimic / HPT human policy / heterogeneous pretraining 路线 按项目页/论文版本变化 把人类 egocentric 数据、机器人数据和策略模型连接起来 是 EgoVerse 这类数据能否转成策略收益的关键算法侧证明。
L4 真实机器人轨迹 DROID 多机构真实世界机器人操作数据 官方口径约 76k 演示、350 小时、跨大量场景/任务 机器人相机、状态、动作、语言、成功信息 比 EgoVerse 更直接训练机器人 action;但采集成本更高、规模扩展更难。
L4 跨 embodiment 轨迹 Open X-Embodiment / RT-X Google / DeepMind 等多机构 官方项目页口径约 22 个 robot embodiments、1M+ 轨迹 跨机器人平台的 observation-action trajectories 解决“机器人之间怎么迁移”;EgoVerse 解决“人类数据怎么进入机器人训练”。
L4 工业级大规模真机 AgiBot World Colosseo / AgiBotWorld2026 AgiBot,机器人数据平台与 Hugging Face release Colosseo 论文页口径:100 万+ trajectories、217 tasks;2026 数据卡提供结构化 release 机器人视频、动作、任务、状态、LeRobot 风格组织 更靠近真机数据工厂;EgoVerse 则是人类第一视角协作采集网络。
L4 仿真控制数据 RoboCasa 仿真家庭/厨房操作 benchmark 官方文档提供 100+ 任务、丰富场景和物体组合 仿真 observation、state、action、reward、任务配置 强在可控闭环和动作标签;EgoVerse 强在真实人类行为和场景多样性。
L5 开源策略平台 LeRobot Hugging Face robotics tooling 持续聚合 datasets、policies、sim/real robot tooling 数据格式、策略训练、数据集分发、机器人接口 不是单一数据集,更像承载和复用这些数据/算法的工程平台。
L5 VLA 模型 OpenVLA / Octo 开放 VLA / generalist robot policy 路线 OpenVLA 使用大规模 Open X 训练;Octo 面向多任务多机器人策略 视觉-语言-动作模型,吃 robot trajectory 数据 EgoVerse 可作为前置 human prior 或 co-training 数据,但不能替代真实 robot action supervision。
L6 前沿闭源/半开模型栈 GR00T N1 / Gemini Robotics / pi0.5 NVIDIA / Google DeepMind / Physical Intelligence 多为私有机器人数据、仿真、网页/视频/合成数据混合 端到端机器人基础模型或 VLA/VLA-adjacent 系统 EgoVerse 不是同级模型栈,而是可被这类栈吸收的人类示范数据层。
为什么 Ego4D / EgoDex / EgoVerse 会被分成三层

分层标准不是“是不是第一视角”,而是数据离机器人策略训练有多近。Ego4D 的主轴是视频理解任务;EgoDex 把注意力收束到人手灵巧操作;EgoVerse 则把采集、字段、registry、Zarr episode、训练脚本和 robot co-training 放到同一套接口里。

所以三者不是高低优劣关系,而是目标函数不同:Ego4D 解决“理解人类第一视角世界”,EgoDex 解决“从第一视角学习灵巧操作先验”,EgoVerse 解决“把人类第一视角示范变成机器人训练数据”。

怎么判断它的价值

读这类项目时,不要只看数据规模。关键是它能不能跨过人到机器人的 embodiment gap。

强项

规模和真实多样性

真实人类场景、真实物体摆放、长程任务和多示范者行为,覆盖面比单实验室机器人数据更宽。

关键赌注

人类行为先验可迁移

它赌的是手部轨迹、视角变化和语言分段能为机器人策略提供可学习的结构先验。

主要风险

人不是机器人

人手灵巧度、触觉、视角、动力学和机器人夹爪差异很大,不能把人类轨迹直接当机器人 action。

最好用法

和机器人数据共训练

更适合做行为先验和感知-动作表征预训练,再用 DROIDOpen XAgiBot 式 robot data 对齐。

一句话记住:EgoVerse 的本质是把“人类怎么在真实世界里做事”压缩成机器人可学习的先验。

资料核对日期
2026-05-12

三个 takeaway

01

不是又一个视频库

它的目标是服务机器人学习,所以字段设计和训练代码都围绕 episode、pose、hand tracking、language annotation 展开。

02

它和 robot demo 互补

真实机器人轨迹更直接,EgoVerse 更便宜更广。最合理路线是先学人类行为先验,再用机器人数据对齐执行。

03

成败看迁移实验

真正有说服力的不是数据量,而是加入 EgoVerse 后,机器人在 ID/OOD 任务上的成功率是否稳定提升。