对象拆分
先把数据集、方法、平台和模型层拆开,避免把不同对象混成一个标签。
一条样本的生命线
从采集到训练使用的路径,用来判断它距离 robot policy 有多近。
01
人类佩戴第一视角设备或处在多机位采集环境
02
记录活动视频、音频和环境上下文
03
Ego-Exo4D 同步外部摄像机和 3D pose
04
生成 narrations、annotations 和 benchmark splits
05
用于感知、技能理解、动作分割或 human-to-robot 研究
06
再由 EgoVerse 等项目尝试转成 robot-learning friendly episode
数据结构快读
字段为阅读型归纳,具体 schema 以官方文档、loader 和 dataset card 为准。
| 字段 / 概念 | 人的解释 |
|---|---|
ego_video |
佩戴者第一视角视频,接近机器人第一人称观察。 |
exo_video |
外部摄像机视角,帮助恢复全局身体动作和场景关系。 |
pose / hand annotations |
人体、手部或物体交互相关标注。 |
narrations |
自然语言描述,让视频片段连接到任务语义。 |
示例切片
- 厨师从第一视角完成切菜、搅拌、装盘等长程任务。
- 运动训练中同时记录佩戴者视角和场边多机位。
- 用外部视角恢复身体姿态,再与第一视角手部动作对齐。
- 把人类任务片段作为机器人任务定义或视觉先验来源。
谱系定位
这一页应放在 human embodied perception 层:它比普通 web video 更贴近身体和任务,比 EgoVerse/Ropedia 更少机器人训练接口,比 DROID/OXE 距离控制策略更远。
| 层级 | 项目 / 结果 | 组织背景 | 公开规模 | 数据 / 方法形态 | 与当前项目关系 |
|---|---|---|---|---|---|
| Generic video | Web video / VLM corpora | mixed sources | internet scale | unstructured video-text data | 更大但身体视角和动作标注弱。 |
| Egocentric human data | Ego4D + Ego-Exo4D | Meta / academic consortium | 3,600+ h and 1,286.3 h tracks | ego video, exo cameras, pose, narrations | 当前页核心对象。 |
| Human-to-robot data | EgoVerse | Georgia Tech / collaborators | 1,362 h demonstrations | human egocentric episodes for robot learning | 更接近训练接口。 |
| Robot trajectory data | DROID / OXE | robotics labs | tens of thousands to 1M+ trajectories | robot images, actions, states | 直接用于 robot policy。 |
价值判断
这里区分官方事实、结构性解释和对相邻项目的定位。
三条结论
用于快速决定这个项目在 atlas 中应该放在哪一层。
深链来源
优先官方页面、论文、代码、数据卡和下载文档。