EgoVerse 全局说明页

一句话定义

人类第一视角示范数据生态

EgoVerse 把人类在真实场景中做任务的第一视角记录，整理成机器人学习可消费的 episode、轨迹和标注。

它补的缺口

真机机器人数据太贵太慢

人类日常操作天然覆盖大量物体、场景和长程任务。EgoVerse 用更低采集成本建立行为先验，再和机器人数据对齐。

它不是什么

不是纯机器人 action 数据

它没有天然的机器人关节/夹爪动作标签。它的关键难题是把 human hand/head trajectories 转成机器人可用监督。

一条数据的一生

用这条线索读 EgoVerse，认知成本最低：先看真实动作如何被捕捉，再看它如何变成训练样本。

1

人类执行真实任务厨房、桌面、收纳、装袋、整理、操作工具等日常任务。

2

第一视角设备记录RGB 视频、设备/头部 6-DOF pose、SLAM 轨迹，部分数据包含眼动。

3

手部和语言被对齐左右手 wrist pose、3D keypoints、动作片段语言标注被对齐到 episode 时间轴。

4

写入统一数据格式官方工具链把不同来源转成 Zarr v3 风格的标准 episode，便于批量训练。

5

和机器人数据共同训练用于 ACT / ALOHA、EgoMimic、HPT、Pi / OpenPI 等策略训练和 human-to-robot transfer 研究。

Zarr v3 风格的标准 episode 是什么意思

Zarr 是面向大规模 N 维数组的分块存储格式：数组被切成 chunks，配合元数据、压缩和云对象存储，可以不用一次性读完整文件就按需读取某段时间、某个相机或某个 pose 流。

EgoVerse 采用的是“一个 episode 一个 .zarr 目录”的组织方式。目录里有 images.front_1/、obs_head_pose/、left.obs_keypoints/、annotations/ 等数组；顶层 zarr.json 和 attrs 保存 fps、total_frames、task_name、embodiment 等元数据。

它的背景是机器人训练数据越来越像“多路同步时序数据库”：视频、姿态、语言、手部 keypoints 都要按 frame 对齐。Zarr v3 风格让这些多模态数组可以被远程索引、懒加载、批量训练和校验。

为什么不直接用普通 mp4 + json

mp4 + json 适合人看和离线处理，但训练时经常需要随机取样、跨 episode 过滤、按字段拼 batch、只读某个相机或某段动作。Zarr 的优势是把“一个 episode 的所有同步信号”变成结构化数组仓库，适合分布式训练和云端数据管线。

数据结构速读

一个 episode 里应该看什么

images.front_1第一视角 RGB 帧，是模型看到的主视觉流。

obs_head_pose头部/设备相机 pose，描述人是从哪里、以什么姿态看世界。

obs_ee_pose左右手或末端执行器式 pose，可作为机器人动作先验的桥。

obs_keypoints手部 3D keypoints，帮助恢复抓取、接近、移动、释放等动作模式。

annotations分段语言标注，把连续视频切成可学习的语义动作片段。

metadata任务、场景、物体、示范者、设备和采集条件。

示例 1：fold_clothes task_description: folding a 2T baby shirt；常见 annotation 包括 grasping collar、laying shirt flat、folding left sleeve、folding body。

示例 2：object_in_container 第一视角看到桌面物体和容器；right.obs_ee_pose 记录右手接近、抓取、移动、放入容器的 6-DOF 轨迹。

示例 3：bag_grocery 长程任务，包含打开袋子、抓取物体、避开袋口遮挡、放入袋中等阶段；适合测 human-to-robot long-horizon transfer。

示例 4：cup_on_saucer 双手或精细操作任务，用来观察第一视角视觉、手部 pose 和目标物相对关系如何支撑 bimanual precision。

字段里的 pose / keypoints 具体怎么理解

obs_head_pose 是第一视角设备在 SLAM 世界坐标里的 6-DOF 姿态。训练时，EgoVerse 会把左右手 pose 重新表达成 head-relative frame，让不同房间、不同起点的数据可以对齐到“当前佩戴者视角”。

left/right.obs_keypoints 通常是 21 个手部 3D landmarks 乘以 3 个坐标维度，flatten 成 (T, 63)。它比单个手腕点更能表达手型、抓取状态和接触前动作。

它在具身数据谱系里的位置

EgoVerse 的准确位置不是“普通视频”，也不是“纯机器人遥操作”，而是两者之间的 human-to-robot data layer。

Ego4D

第一视角视频理解层

Ego4D 的中心是人类第一视角生活视频和视频理解 benchmark：看过什么、做过什么、接下来可能发生什么。它有强 egocentric 视觉，但不以机器人动作训练格式为中心。

EgoDex

手部灵巧操作层

EgoDex 更聚焦人手灵巧操作和 dexterous manipulation，强调手部、物体和抓取动作，但项目目标仍更接近从人类 egocentric 经验学习操作先验。

EgoVerse

机器人共训练层

EgoVerse 把第一视角示范推进到机器人训练接口：Zarr episode、统一 embodiment id、SQL registry、训练脚本、co-training 和跨机器人评估。

互联网视频 / VLM 数据 覆盖广，但缺少动作、相机 pose、手部 3D 结构和机器人训练接口。低成本 / 弱具身

Ego4D / EgoDex 类第一视角数据 更接近人类真实行为，适合视频理解、手部动作、长程活动建模，但训练接口通常不等价于机器人 policy dataset。强视觉 / 弱机器人

EgoVerse 把第一视角人类示范标准化为机器人学习数据，并明确研究 human-to-robot transfer。人类示范 -> 机器人学习

DROID / Open X / AgiBot 真实机器人状态、动作、相机和任务结果，更直接服务 imitation learning 和 VLA。高价值 / 高成本

GR00T / Gemini Robotics / pi0.5 完整机器人基础模型栈，通常混合真实机器人、仿真、网页和合成数据。前沿模型栈

2025-2026 谱系大表

这张表把“它属于哪一层、数据量级、背景、和 EgoVerse 的差别”放在同一个视野里。量级按公开项目页/论文页口径整理，随版本会变化。

层级	项目 / 成果	所属 / 背景	公开量级	核心数据形态	和 EgoVerse 的关系
L0 普通视频 / VLM 语料	互联网视频、网页图文、VLM pretraining corpus	跨来源互联网语料	通常 web-scale，但来源和字段不统一	视频、图文、字幕、网页结构	语义覆盖强，但缺少头部 pose、手部 3D、机器人训练接口。
L1 第一视角视频理解	Ego4D	Meta / academic consortium，面向 egocentric video understanding	官方口径约 3,670 小时第一视角视频，跨大量场景和采集者	第一视角视频、叙事、活动、记忆/预测/社交等 benchmark	更像“人类第一视角世界理解基座”；EgoVerse 更进一步把数据结构接到机器人 co-training。
L1.5 Ego-Exo 配对理解	Ego-Exo4D	Meta / consortium，第一视角与第三视角同步采集	官方称大规模多视角技能活动数据	ego video + exo video + 3D/pose/annotation	更适合研究“人怎么做技能”和多视角理解；EgoVerse 更明确输出机器人训练 episode。
L2 灵巧手部 egocentric	EgoDex	Apple，面向从 egocentric video 学习 dexterous manipulation	以论文/项目页版本为准	第一视角手部操作、物体交互、dexterity-oriented annotations	更聚焦手部灵巧动作；EgoVerse 把类似先验纳入更广的机器人共训练和数据平台。
L3 Human-to-robot 数据层	EgoVerse	Georgia Tech / consortium，机器人学习数据生态	官方页当前口径：1,362 小时、约 80k episodes、1,965 任务、240 场景、2,087 示范者	RGB、head pose、hand pose/keypoints、language annotations、Zarr v3 episode	本页主角：位于 egocentric video 与 robot trajectory dataset 之间。
L3 配套算法	EgoMimic / HPT	human policy / heterogeneous pretraining 路线	按项目页/论文版本变化	把人类 egocentric 数据、机器人数据和策略模型连接起来	是 EgoVerse 这类数据能否转成策略收益的关键算法侧证明。
L4 真实机器人轨迹	DROID	多机构真实世界机器人操作数据	官方口径约 76k 演示、350 小时、跨大量场景/任务	机器人相机、状态、动作、语言、成功信息	比 EgoVerse 更直接训练机器人 action；但采集成本更高、规模扩展更难。
L4 跨 embodiment 轨迹	Open X-Embodiment / RT-X	Google / DeepMind 等多机构	官方项目页口径约 22 个 robot embodiments、1M+ 轨迹	跨机器人平台的 observation-action trajectories	解决“机器人之间怎么迁移”；EgoVerse 解决“人类数据怎么进入机器人训练”。
L4 工业级大规模真机	AgiBot World Colosseo / AgiBotWorld2026	AgiBot，机器人数据平台与 Hugging Face release	Colosseo 论文页口径：100 万+ trajectories、217 tasks；2026 数据卡提供结构化 release	机器人视频、动作、任务、状态、LeRobot 风格组织	更靠近真机数据工厂；EgoVerse 则是人类第一视角协作采集网络。
L4 仿真控制数据	RoboCasa	仿真家庭/厨房操作 benchmark	官方文档提供 100+ 任务、丰富场景和物体组合	仿真 observation、state、action、reward、任务配置	强在可控闭环和动作标签；EgoVerse 强在真实人类行为和场景多样性。
L5 开源策略平台	LeRobot	Hugging Face robotics tooling	持续聚合 datasets、policies、sim/real robot tooling	数据格式、策略训练、数据集分发、机器人接口	不是单一数据集，更像承载和复用这些数据/算法的工程平台。
L5 VLA 模型	OpenVLA / Octo	开放 VLA / generalist robot policy 路线	OpenVLA 使用大规模 Open X 训练；Octo 面向多任务多机器人策略	视觉-语言-动作模型，吃 robot trajectory 数据	EgoVerse 可作为前置 human prior 或 co-training 数据，但不能替代真实 robot action supervision。
L6 前沿闭源/半开模型栈	GR00T N1 / Gemini Robotics / pi0.5	NVIDIA / Google DeepMind / Physical Intelligence	多为私有机器人数据、仿真、网页/视频/合成数据混合	端到端机器人基础模型或 VLA/VLA-adjacent 系统	EgoVerse 不是同级模型栈，而是可被这类栈吸收的人类示范数据层。

为什么 Ego4D / EgoDex / EgoVerse 会被分成三层

分层标准不是“是不是第一视角”，而是数据离机器人策略训练有多近。Ego4D 的主轴是视频理解任务；EgoDex 把注意力收束到人手灵巧操作；EgoVerse 则把采集、字段、registry、Zarr episode、训练脚本和 robot co-training 放到同一套接口里。

所以三者不是高低优劣关系，而是目标函数不同：Ego4D 解决“理解人类第一视角世界”，EgoDex 解决“从第一视角学习灵巧操作先验”，EgoVerse 解决“把人类第一视角示范变成机器人训练数据”。

怎么判断它的价值

读这类项目时，不要只看数据规模。关键是它能不能跨过人到机器人的 embodiment gap。

强项

规模和真实多样性

真实人类场景、真实物体摆放、长程任务和多示范者行为，覆盖面比单实验室机器人数据更宽。

关键赌注

人类行为先验可迁移

它赌的是手部轨迹、视角变化和语言分段能为机器人策略提供可学习的结构先验。

主要风险

人不是机器人

人手灵巧度、触觉、视角、动力学和机器人夹爪差异很大，不能把人类轨迹直接当机器人 action。

最好用法

和机器人数据共训练

更适合做行为先验和感知-动作表征预训练，再用 DROID、Open X、AgiBot 式 robot data 对齐。

一句话记住：EgoVerse 的本质是把“人类怎么在真实世界里做事”压缩成机器人可学习的先验。

资料核对日期
2026-05-12

三个 takeaway

01

不是又一个视频库

它的目标是服务机器人学习，所以字段设计和训练代码都围绕 episode、pose、hand tracking、language annotation 展开。

02

它和 robot demo 互补

真实机器人轨迹更直接，EgoVerse 更便宜更广。最合理路线是先学人类行为先验，再用机器人数据对齐执行。

03

成败看迁移实验

真正有说服力的不是数据量，而是加入 EgoVerse 后，机器人在 ID/OOD 任务上的成功率是否稳定提升。

深挖链接

页面只保留主线，细节从这里进入。后续其他项目也可以用同样链接结构。

Official Project 项目定义、数据快照、展示视频、consortium 信息。 Paper 核心贡献、实验、human-to-robot transfer 论证。 GitHub 数据处理、训练、评估和复现入口。 Data Spec 采集设备、字段要求、Zarr v3 episode 结构。 Training Guide ACT、EgoMimic/HPT、Pi 等训练入口。 ACT / ALOHA Action Chunking Transformer 和低成本双臂操作项目页。 EgoMimic 人类第一视角示范到机器人策略迁移的配套算法页。 HPT Heterogeneous Pre-trained Transformers，机器人策略预训练方向。 OpenPI / Pi Physical Intelligence 开源策略和 Pi 系列相关入口。 Dataset Browser 查看数据样例和可视化浏览入口。 Ego4D 对照：大规模第一视角视频理解数据集。 EgoDex 对照：第一视角灵巧手部操作数据/方法。 DROID 对照：真实机器人操作数据集。 Open X-Embodiment 对照：跨 embodiment 机器人数据和 RT-X 系列。