人类第一视角示范数据生态
EgoVerse 把人类在真实场景中做任务的第一视角记录,整理成机器人学习可消费的 episode、轨迹和标注。
EgoVerse 把人类在真实场景中做任务的第一视角记录,整理成机器人学习可消费的 episode、轨迹和标注。
人类日常操作天然覆盖大量物体、场景和长程任务。EgoVerse 用更低采集成本建立行为先验,再和机器人数据对齐。
它没有天然的机器人关节/夹爪动作标签。它的关键难题是把 human hand/head trajectories 转成机器人可用监督。
用这条线索读 EgoVerse,认知成本最低:先看真实动作如何被捕捉,再看它如何变成训练样本。
Zarr 是面向大规模 N 维数组的分块存储格式:数组被切成 chunks,配合元数据、压缩和云对象存储,可以不用一次性读完整文件就按需读取某段时间、某个相机或某个 pose 流。
EgoVerse 采用的是“一个 episode 一个 .zarr 目录”的组织方式。目录里有 images.front_1/、obs_head_pose/、left.obs_keypoints/、annotations/ 等数组;顶层 zarr.json 和 attrs 保存 fps、total_frames、task_name、embodiment 等元数据。
它的背景是机器人训练数据越来越像“多路同步时序数据库”:视频、姿态、语言、手部 keypoints 都要按 frame 对齐。Zarr v3 风格让这些多模态数组可以被远程索引、懒加载、批量训练和校验。
mp4 + json 适合人看和离线处理,但训练时经常需要随机取样、跨 episode 过滤、按字段拼 batch、只读某个相机或某段动作。Zarr 的优势是把“一个 episode 的所有同步信号”变成结构化数组仓库,适合分布式训练和云端数据管线。
task_description: folding a 2T baby shirt;常见 annotation 包括 grasping collar、laying shirt flat、folding left sleeve、folding body。
right.obs_ee_pose 记录右手接近、抓取、移动、放入容器的 6-DOF 轨迹。
obs_head_pose 是第一视角设备在 SLAM 世界坐标里的 6-DOF 姿态。训练时,EgoVerse 会把左右手 pose 重新表达成 head-relative frame,让不同房间、不同起点的数据可以对齐到“当前佩戴者视角”。
left/right.obs_keypoints 通常是 21 个手部 3D landmarks 乘以 3 个坐标维度,flatten 成 (T, 63)。它比单个手腕点更能表达手型、抓取状态和接触前动作。
EgoVerse 的准确位置不是“普通视频”,也不是“纯机器人遥操作”,而是两者之间的 human-to-robot data layer。
Ego4D 的中心是人类第一视角生活视频和视频理解 benchmark:看过什么、做过什么、接下来可能发生什么。它有强 egocentric 视觉,但不以机器人动作训练格式为中心。
EgoDex 更聚焦人手灵巧操作和 dexterous manipulation,强调手部、物体和抓取动作,但项目目标仍更接近从人类 egocentric 经验学习操作先验。
EgoVerse 把第一视角示范推进到机器人训练接口:Zarr episode、统一 embodiment id、SQL registry、训练脚本、co-training 和跨机器人评估。
这张表把“它属于哪一层、数据量级、背景、和 EgoVerse 的差别”放在同一个视野里。量级按公开项目页/论文页口径整理,随版本会变化。
| 层级 | 项目 / 成果 | 所属 / 背景 | 公开量级 | 核心数据形态 | 和 EgoVerse 的关系 |
|---|---|---|---|---|---|
| L0 普通视频 / VLM 语料 | 互联网视频、网页图文、VLM pretraining corpus | 跨来源互联网语料 | 通常 web-scale,但来源和字段不统一 | 视频、图文、字幕、网页结构 | 语义覆盖强,但缺少头部 pose、手部 3D、机器人训练接口。 |
| L1 第一视角视频理解 | Ego4D | Meta / academic consortium,面向 egocentric video understanding | 官方口径约 3,670 小时第一视角视频,跨大量场景和采集者 | 第一视角视频、叙事、活动、记忆/预测/社交等 benchmark | 更像“人类第一视角世界理解基座”;EgoVerse 更进一步把数据结构接到机器人 co-training。 |
| L1.5 Ego-Exo 配对理解 | Ego-Exo4D | Meta / consortium,第一视角与第三视角同步采集 | 官方称大规模多视角技能活动数据 | ego video + exo video + 3D/pose/annotation | 更适合研究“人怎么做技能”和多视角理解;EgoVerse 更明确输出机器人训练 episode。 |
| L2 灵巧手部 egocentric | EgoDex | Apple,面向从 egocentric video 学习 dexterous manipulation | 以论文/项目页版本为准 | 第一视角手部操作、物体交互、dexterity-oriented annotations | 更聚焦手部灵巧动作;EgoVerse 把类似先验纳入更广的机器人共训练和数据平台。 |
| L3 Human-to-robot 数据层 | EgoVerse | Georgia Tech / consortium,机器人学习数据生态 | 官方页当前口径:1,362 小时、约 80k episodes、1,965 任务、240 场景、2,087 示范者 | RGB、head pose、hand pose/keypoints、language annotations、Zarr v3 episode | 本页主角:位于 egocentric video 与 robot trajectory dataset 之间。 |
| L3 配套算法 | EgoMimic / HPT | human policy / heterogeneous pretraining 路线 | 按项目页/论文版本变化 | 把人类 egocentric 数据、机器人数据和策略模型连接起来 | 是 EgoVerse 这类数据能否转成策略收益的关键算法侧证明。 |
| L4 真实机器人轨迹 | DROID | 多机构真实世界机器人操作数据 | 官方口径约 76k 演示、350 小时、跨大量场景/任务 | 机器人相机、状态、动作、语言、成功信息 | 比 EgoVerse 更直接训练机器人 action;但采集成本更高、规模扩展更难。 |
| L4 跨 embodiment 轨迹 | Open X-Embodiment / RT-X | Google / DeepMind 等多机构 | 官方项目页口径约 22 个 robot embodiments、1M+ 轨迹 | 跨机器人平台的 observation-action trajectories | 解决“机器人之间怎么迁移”;EgoVerse 解决“人类数据怎么进入机器人训练”。 |
| L4 工业级大规模真机 | AgiBot World Colosseo / AgiBotWorld2026 | AgiBot,机器人数据平台与 Hugging Face release | Colosseo 论文页口径:100 万+ trajectories、217 tasks;2026 数据卡提供结构化 release | 机器人视频、动作、任务、状态、LeRobot 风格组织 | 更靠近真机数据工厂;EgoVerse 则是人类第一视角协作采集网络。 |
| L4 仿真控制数据 | RoboCasa | 仿真家庭/厨房操作 benchmark | 官方文档提供 100+ 任务、丰富场景和物体组合 | 仿真 observation、state、action、reward、任务配置 | 强在可控闭环和动作标签;EgoVerse 强在真实人类行为和场景多样性。 |
| L5 开源策略平台 | LeRobot | Hugging Face robotics tooling | 持续聚合 datasets、policies、sim/real robot tooling | 数据格式、策略训练、数据集分发、机器人接口 | 不是单一数据集,更像承载和复用这些数据/算法的工程平台。 |
| L5 VLA 模型 | OpenVLA / Octo | 开放 VLA / generalist robot policy 路线 | OpenVLA 使用大规模 Open X 训练;Octo 面向多任务多机器人策略 | 视觉-语言-动作模型,吃 robot trajectory 数据 | EgoVerse 可作为前置 human prior 或 co-training 数据,但不能替代真实 robot action supervision。 |
| L6 前沿闭源/半开模型栈 | GR00T N1 / Gemini Robotics / pi0.5 | NVIDIA / Google DeepMind / Physical Intelligence | 多为私有机器人数据、仿真、网页/视频/合成数据混合 | 端到端机器人基础模型或 VLA/VLA-adjacent 系统 | EgoVerse 不是同级模型栈,而是可被这类栈吸收的人类示范数据层。 |
分层标准不是“是不是第一视角”,而是数据离机器人策略训练有多近。Ego4D 的主轴是视频理解任务;EgoDex 把注意力收束到人手灵巧操作;EgoVerse 则把采集、字段、registry、Zarr episode、训练脚本和 robot co-training 放到同一套接口里。
所以三者不是高低优劣关系,而是目标函数不同:Ego4D 解决“理解人类第一视角世界”,EgoDex 解决“从第一视角学习灵巧操作先验”,EgoVerse 解决“把人类第一视角示范变成机器人训练数据”。
一句话记住:EgoVerse 的本质是把“人类怎么在真实世界里做事”压缩成机器人可学习的先验。
它的目标是服务机器人学习,所以字段设计和训练代码都围绕 episode、pose、hand tracking、language annotation 展开。
真实机器人轨迹更直接,EgoVerse 更便宜更广。最合理路线是先学人类行为先验,再用机器人数据对齐执行。
真正有说服力的不是数据量,而是加入 EgoVerse 后,机器人在 ID/OOD 任务上的成功率是否稳定提升。
页面只保留主线,细节从这里进入。后续其他项目也可以用同样链接结构。