DROID 深度说明页 | Embodied Data Atlas

30 秒心智模型

先把 DROID 从“数据集名字”拆成四个对象：采集系统、数据、训练接口、评测证据。

数据

它记录真实机器人经验

一条轨迹不是单帧图片，而是一段时序：观察、机器人状态、动作、语言指令随时间展开。

硬件

它统一了采集平台

官方说明 13 个机构使用同一套 Franka Panda、ZED 相机、腕部相机和 Quest 2 遥操作配置。

算法

它服务 policy learning

算法不是直接“看网页视频”，而是从 batch 中学习：看到某种观察和指令时，下一步动作应该是什么。

证据

它用 co-training 证明价值

官方实验比较 DROID、Open-X 和 no co-train，并报告 DROID 帮助策略在 ID 和 OOD 任务上更稳。

最小算法词典

DROID 的算法意义集中在四个概念：观察、动作、策略和分布外泛化。

Observation

机器人当下能看到和感到的东西。在 DROID 里包括第三方相机图像、腕部相机图像和机器人状态。

Action

机器人下一步做什么。对操作任务来说，通常和末端执行器运动、夹爪开合、关节状态变化相关。

Policy

从 observation 和 instruction 到 action 的函数。训练目标是让这个函数在新场景里也能做对。

OOD

Out-of-distribution，指训练里没充分见过的物体、场景或干扰。机器人如果只会重复训练桌面，OOD 会很差。

一条 episode 的生命线

DROID 的关键价值在这里：它把“现实中的一次操作”转成“模型可学习的一段序列”。

01

真实场景采集者把移动桌和机器人推到厨房、办公室、实验室或家庭空间里，而不是固定在单一桌面。

02

遥操作人用 Oculus Quest 2 控制器遥操作 Franka Panda 7DoF 机械臂完成任务。

03

同步记录两个可调 ZED 2 立体相机、腕部 ZED Mini 相机、机器人状态和动作被同步记录。

04

语言对齐官方更新提供了语言标注，2024 年 12 月更新称 95% 的 successful episodes 有 3 条自然语言标注。

05

训练读取官方 quickstart 用 TensorFlow Datasets 从 gs://gresearch/robotics 读取 droid split。

06

策略学习模型学习在图像、状态、语言给定时预测动作，并在新场景、新物体或干扰下评测。

import tensorflow_datasets as tfds

ds = tfds.load(
    "droid",
    data_dir="gs://gresearch/robotics",
    split="train"
)

for episode in ds.take(5):
    for step in episode["steps"]:
        image = step["observation"]["exterior_image_1_left"]
        wrist = step["observation"]["wrist_image_left"]
        action = step["action"]
        instruction = step["language_instruction"]

读这段代码时要抓住一个点

机器人数据的核心不是“图片分类标签”，而是每个时间步都有观察、动作和指令。监督信号来自人类遥操作留下的动作轨迹，所以它天然适合 imitation learning 和 VLA policy fine-tuning。

数据结构快读

字段以官方 quickstart、项目页和常见 robot dataset 结构归纳。具体 schema 以官方 loader 和数据卡为准。

字段 / 组件	给算法的含义	给机器人学习的意义	训练时的风险
`episode["steps"]`	一条轨迹被拆成多个时间步。	模型学习的是时序决策，而不是静态识别。	轨迹长度、失败片段、采样频率都会影响训练。
`exterior_image_1_left`	外部第三方相机图像。	给模型提供全局场景和物体布局。	相机外参变化会让视觉分布变宽，校准很重要。
`wrist_image_left`	腕部相机图像。	提供靠近夹爪的接触和物体细节。	遮挡和运动模糊会影响末端操作判断。
`action`	遥操作动作或控制目标。	这是 policy 训练的关键监督信号。	不同机器人动作空间不一致，跨数据集混合要谨慎。
`language_instruction`	自然语言任务说明。	让同一模型可按任务意图条件化。	语言标注质量会影响 VLA 模型学习到的任务边界。
camera calibration	相机内参和外参。	支撑 3D 位置、视角融合和更稳的空间推理。	官方 2025 年 4 月更新提供 36k episodes 改进校准，说明早期数据仍会被修正。

为什么机器人数据比普通视频更难

普通视频通常只需要理解“发生了什么”。机器人数据还必须回答“下一步身体怎么动”。这要求图像、机器人状态、动作、语言、时间同步和硬件标定都能对齐。任意一环噪声过大，策略学到的就可能是错误动作。

官方视觉证据怎么读

这些不是装饰图。它们分别说明了采集平台、场景多样性、动作分布和策略改进证据。

DROID robot platform official figure — **机器人平台**统一硬件让分布式采集不至于完全失控：Franka、外部相机、腕部相机和遥操作设备共同构成数据采集仪器。

Dataset Visualizer官方 visualizer 暗示一个好的数据集不只发布文件，还要提供浏览、抽样和排查分布的工具。

DROID verb and object distribution official figure — **动词和物体长尾**策略泛化需要多样任务，而不是在同一桌面上重复少数 pick-place。

DROID camera viewpoint distribution official figure — **1417 个相机视角**官方说明 DROID episodes 覆盖 1417 个 third-person camera viewpoints，并包含 stereo calibration。

DROID interaction points official figure — **交互点分布**夹爪首次闭合位置反映机器人真正接触物体的位置，能看出工作空间是否狭窄。

DROID scene distribution official figure — **场景类型**它的“in-the-wild”不是口号，项目页强调 scene type 数量比其他大型数据集高一个数量级。

DROID 如何进入算法

DROID 的核心主张不是“数据多”，而是“用这批真实数据 co-train 后，策略更稳”。

训练时发生了什么

Policy learning 读取 DROID 的图像、状态、动作和语言，把每个时间步当作监督信号。模型看到相似视觉状态和任务指令时，学习输出接近人类遥操作的动作。co-training 的意思是：本地任务数据不够时，把 DROID 作为额外真实机器人经验加入训练。

评测时看什么

真正有价值的不是训练集 loss，而是新场景、新物体、干扰物和家庭/办公室环境中，策略是否比 no co-train 或 Open-X co-train 更稳。官方项目页报告 DROID 在 ID 与 OOD 评测上都有提升。

6 tasks 官方实验覆盖 6 个任务。

4 locations 实验地点包括 lab、office 和 household settings。

+22 / +17 项目页报告 DROID 相比下一最佳方法 ID 绝对成功率 +22%，OOD +17%。

DROID co-training official quantitative comparison — **官方量化比较**这张图是 DROID 页面里最关键的证据之一：它把数据规模、多样性和 policy success rate 连接起来。

放在具身数据谱系里的位置

DROID 处在“真实机器人轨迹数据”层，比人类视频更接近控制，比 VLA 模型更接近原始经验。

层级	项目	公开规模 / 对象	核心数据形态	和 DROID 的关系
人类第一视角	Ego4D + Ego-Exo4D	人类 ego / exo 视频	视频、姿态、音频、解说、技能理解	上游人类经验，没有机器人动作监督。
人类到机器人	EgoVerse	第一视角人类示范	把人类操作整理成 robot-learning friendly episodes	比 DROID 更人类视角，离真实机器人动作更远。
真实机器人轨迹	DROID	76k trajectories / 350h / 564 scenes	图像、动作、状态、语言、校准、采集平台	当前页核心对象。
跨机器人聚合	Open X-Embodiment / RT-X	1M+ trajectories / 22 embodiments	多实验室、多机器人数据混合	更大更杂，强在跨 embodiment，弱在单平台一致性。
接触多模态	RH20T	110k+ sequences	视觉、力、音频、动作和 human/robot demos	比 DROID 更强调接触和多模态传感。
VLA / policy stack	OpenVLA / OpenPI	模型、checkpoint、训练代码	把 DROID/OXE 这类数据转成可部署策略	DROID 是这些系统的真实机器人数据来源之一。

客观评价

好的项目页不能只复述官方优点，也要说明边界、风险和什么证据会改变判断。

最强贡献 把真实机器人数据采集做成可复制流程

统一硬件、分布式采集、公开 dataset/code/setup guide，让小团队也能理解大规模真实机器人数据如何生产。

算法价值 它直接连接到 policy success

官方不只发布数据，还做了 co-training 与 OOD 评测。这比单纯公布小时数更有说服力。

局限 单平台一致性也是边界

Franka 平台让数据更干净，但也意味着它不是 humanoid、mobile manipulator 或多 embodiment 的完整覆盖。

风险 in-the-wild 会带来噪声

真实环境多样性提升泛化潜力，也会带来标注不一致、相机校准、失败轨迹和动作质量差异。

证明标准 要看新任务上的可复用性

最有力证据不是下载量，而是不同实验室、不同对象、不同场景里，DROID 预训练或 co-training 是否稳定提升成功率。

长期位置 它是 robot data engineering 的标准案例

DROID 把采集硬件、数据浏览、loader、训练代码和策略评测连成一条链，适合作为真实机器人数据工程的参照物。

深链来源

优先放官方项目、论文、数据浏览、代码、训练和后续更新入口。

Official Project

项目主页、视频、数据分析图、实验结果。

Paper

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset。

Dataset Visualizer

官方交互式数据浏览入口。

Dataset Colab

官方 quickstart 代码示例。

Setup Guide

复现硬件采集系统的说明入口。

Hardware Code

硬件和采集相关代码。

Policy Learning Code

策略训练代码。

Hugging Face Update

语言标注和相机校准更新入口。