一篇VLA综述阅读

论文链接：Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

如果用一句话概括这篇《Vision‑Language‑Action Models for Robotics: A Review Towards Real‑World Applications》，那就是：它第一次用“全栈视角”认真回答——到底怎样把大模型真正变成会干活的机器人。

很多文章谈“让 LLM 控制机器人”，停留在高层规划：模型输出“去拿红杯子”，下面是另一个控制模块去执行。作者认为，这还称不上真正的 Vision‑Language‑Action（VLA）模型。他们给了一个非常严格的定义：

“VLA 模型以视觉观测和自然语言指令为必需输入，并直接输出控制命令；只做技能索引的高层策略不算 VLA。”

这篇文章的野心，就是在这个定义之上，给出 VLA 领域从挑战 → 架构 → 模态处理 → 训练与数据 → 机器人平台 → 评测与实践指南的一条完整主线（见论文第 2 页图 1）。

下面我按“读者视角”来拆解这篇综述：它到底在讲什么？我们能学什么？如果你在做具身智能/机器人产品，这篇文章能直接帮你做架构和路线的选型。

一、VLA 想解决什么问题？

论文一开头就指出一个现实：早期把 LLM/VLM 接进机器人的工作，大多是“高层想一想，低层照做做”。

“早期工作把 LLM 和 VLM 与底层策略解耦，只负责任务推理或选择预定义动作原语；这在少量预定义任务上有效，却难以泛化到更广任务。”

这带来几个痛点：

每个新任务都要重新收集示教、重训策略；
改一个机器人平台（不同机械臂、移动底盘），现有模型很难复用；
模型“知道很多”，但大部分知识没办法落实到低层控制。

于是，VLA 的核心目标就是：在大规模数据上联合学习视觉‑语言‑动作，得到一种“通用策略”，能：

在新任务上，用极少甚至零样本适配；
跨 物体、环境和机器人形体（embodiment） 迁移；
最终降低真实部署时的每任务成本。

如果把这件事做成，对产业落地的好处也相当大了：

仓储、制造、家政、医疗的场景里，可以用一套方法支撑很多 SKU / 场景 / 流程；
硬件厂商可以围绕统一的 VLA 接口共享数据和模型，而不是各自搞封闭系统（生态构建）；
有可能出现“云端 VLA + 边缘低成本机器人”的 Robot‑as‑a‑Service 模式。

二、从 CLIPort 到 GR00T：VLA 架构的时间线

论文在第 4 页给了一张非常关键的时间线（图 2），把代表性工作连成一条“进化史”：

CLIPort → Gato/VIMA → RT‑1/RT‑2/RT‑X/OpenVLA → Octo/RDT‑1B/π0 → LAPA/π0.5/GR00T N1

这条时间线其实对应了接口风格的变化，我们可以分几代来看：

2.1 第一代：CNN 端到端 —— 桌面玩家 CLIPort

CLIPort 是最早真正意义上的 VLA 之一：

用 CLIP 提取图像 + 文本特征；
结合 Transporter Network 预测“在哪里抓、放到哪里”；
实现在桌面环境下的多对象操作。

局限也很明显：CNN + MLP 架构对模态统一能力有限、扩展到多任务/多平台困难。

2.2 第二代：Transformer 序列模型 —— “万能序列机”Gato / VIMA

接下来是 Gato 和 VIMA 这一类，把一切都 token 化：

图像切 patch → 视觉 token；
文本 → 文本 token；
动作（离散化后）→ 动作 token；
全部拼成一个序列，丢进 decoder‑only Transformer 里自回归预测。

Gato 展示了“一模型多任务”的可能性：聊天、VQA、游戏操作、机器人控制都能干，但机器人部分技能仍然有限。VIMA 则在仿真中展示了指令 + 目标图像的组合泛化能力。

2.3 第三代：现实世界 VLM 主干 —— RT‑系列 & OpenVLA

真正把 VLA 推向现实的，是 RT‑1/RT‑2/RT‑X：

RT‑1：
- EfficientNet 提视觉，Universal Sentence Encoder 提语言；
- 用 TokenLearner 压缩视觉 token；
- decoder‑only Transformer 一次性预测全部动作 token（非自回归）；
- 在 13 台 Google 机器人上收集了 13 万条轨迹、700+ 任务。
RT‑2：
- 直接用 PaLM‑E / PaLI‑X 等 VLM 做 backbone；
- 一边做互联网视觉‑语言任务，一边做机器人 BC 训练；
- 泛化到新物体、新环境的能力大幅提升。
RT‑X：
- 用多实验室、多机器人联合数据训练，
- 证明了“跨 embodiment 大一统”的可行性。

基于 RT‑2 结构，OpenVLA 用 PrismaticVLM + DINOv2 + SigLIP 作为视觉‑语言主干，在 Open‑X Embodiment（OXE）上全模型微调，在多个 benchmark 上超过 RT‑2 和 Octo，成为目前开源的“主流 VLA 架构”。

2.4 第四代：扩散 / Flow / Diffusion Transformer —— Octo、RDT‑1B、π0

当大家发现离散动作 token 在控制频率与平滑度上有先天不足后，一条新路线出现了：用生成模型直接生成连续动作。

Octo：第一个把 Diffusion Policy 引入 VLA 的公开开源系统。视觉 + 文本 token 过 Transformer 得到 readout，再用扩散模型生成动作序列。
RDT‑1B：更激进，直接用 Diffusion Transformer (DiT) 做 backbone，扩散过程嵌在整个 Transformer 中。
π0：用 Flow Matching + PaliGemma，把动作头做成 flow 模型，一次输出整段动作 chunk，最高支持 50Hz 控制，兼顾平滑与实时。

2.5 第五代：潜在动作 + 分层策略 —— LAPA、π0.5、GR00T N1

最新一代则开始把人类视频、潜在动作和分层控制统筹到 VLA 体系里：

LAPA：从视频中学习离散的潜在动作 token，用 VQ‑VAE 压缩“当前图像 → N 步之后图像”的差异，把它当作动作再重建未来图像，从而在没有显式机器人 action 的人类视频上预训练。
π0.5：把高层离散动作 token（FAST）和低层 flow 控制统一在一套网络里，既能做 CoT 式的高层决策，又能输出连续控制。
GR00T N1：更进一步，把 LAPA 的潜在动作、RDT‑1B 的 Diffusion Transformer、π0 的 flow 控制，做成一个多阶段策略结构，用世界模型生成多样轨迹，再在此基础上学可泛化的策略。

从这条进化线可以看到：LLM 控机器人只是起点，现在的主战场其实在“如何生成连续动作 + 如何用巨大的人类/机器人视频数据训练”。

三、三个硬伤：数据、embodiment 和算力

论文第二节给 VLA 列了三宗原罪，这也是落地项目时必然会撞的墙。

3.1 数据：三模态对齐的稀缺

“满足视觉、语言、动作三模态对齐的大规模数据集极其有限；机器人示教数据语言多样性差、任务范围窄，采集昂贵。”

视觉‑语言数据：COCO、LAION 之类有海量图文，但没动作。
机器人数据：QT‑Opt、RT‑1、RoboNet 等有动作，但语言贫乏、任务窄。
加更多模态（触觉、音频、3D）后，稀缺程度乘以 N。

3.2 Embodiment：不同架构之间的翻译难

机器人千奇百怪：只有机械臂 vs 带轮子 vs 四足 vs 人形；关节 DOF、连杆、传感器都不同。

“跨 embodiment 的策略迁移依然是重大难题；同样问题在人类 → 机器人迁移上更为严重。”

这就引出 UniAct、CrossFormer 这类工作：通过统一 token 表示或者潜在动作空间，把不同身体映射到共享表示上。

3.3 计算：长序列 + 高频视觉的成本

VLA 大多基于 Transformer，不但要吃语言 token，还要吃高分辨率、多帧图像、可能还有 3D/触觉；序列长度和维度直接爆炸，训练和推理都极其耗算。

于是出现一堆算力区救火的方法：

TokenLearner、Perceiver Resampler、Q‑Former 等视觉 token 压缩模块；
RTC、VLA‑Cache、层级早停（DeeR‑VLA）等推理时优化技术。

四、模型设计全景：三大类架构 + 七种 sensorimotor

作者最硬核的贡献之一，是给出了一个非常系统的 VLA 架构分类图谱（图 3–6）。

4.1 三大架构家族

Sensorimotor model（传感‑运动模型）
- 直接从视觉 + 语言 → 动作；
- 可以是单层（flat）或分层（hierarchical）；
- 是现在最主流的一类。
World model（世界模型）
- 先预测未来观测（图像/latent），再由逆动力学模型或策略生成动作；
- 支持规划、长时序推理。
Affordance‑based model（可供性模型）
- 先预测“哪里能抓/能放/能走”等可供性，再规划动作。

4.2 七种 sensorimotor 架构（图 4）

型号	主干	动作输出	代表
(1) Transformer + 离散 action token	Transformer	离散 token	Gato, VIMA, RT‑1 等
(2) Transformer + Diffusion 头	Transformer	扩散连续动作	Octo, NoMAD
(3) Diffusion Transformer	DiT	扩散连续动作	RDT‑1B, LBM 等
(4) VLM + 离散 token	预训练 VLM	离散 token	RT‑2, OpenVLA, GR‑1 等
(5) VLM + Diffusion 头	预训练 VLM	扩散连续动作	Diffusion‑VLA, DexVLA 等
(6) VLM + Flow 头	预训练 VLM	Flow 连续动作	π0, GraspVLA 等
(7) VLM + Diffusion Transformer	VLM + DiT	分层连续动作	GR00T N1, CogACT 等

这相当于给你一份架构选型菜单：

任务较短、频率不高 → (4) 类离散 token 架构；
要 50Hz 高频、平滑控制 → (6) Flow Matching；
要世界模型 + 分层规划 → (7) VLM + Diffusion Transformer。

4.3 世界模型 & 可供性

世界模型（Fig.5） 大致三种玩法：

预测未来图像/视频，再用 IDM 反推动作（UniPi, DreamGen, SuSIE 等）；
从视频学潜在动作 token，供 VLA 使用（LAPA, UniVLA, UniSkill）；
在 sensorimotor 模型里，顺便预测未来观测（GR‑1/2/3, 3D‑VLA）。

可供性模型（Fig.6） 也是三条线：

用 GPT‑4 + OWL‑ViT + SAM 这类 VLM，先产出 Affordance / Constraint Map，再 MPC 控制（VoxPoser, LERF‑TOGO 等）；
从人类视频里自动抽取“接触点+轨迹”（VRB, HRP, VidBot）；
把可供性模块嵌进 VLA 主体（CLIPort, RoboGround, Chain‑of‑Affordance）。

五、数据 & 训练：从 Ego4D 到 OXE，再到自动标注和增强

5.1 真实机器人数据：OXE & AgiBot World

表 1（第 19 页）列出了当前主流真实机器人数据集：

RT‑1：130K 轨迹，12 个技能，700+ 任务，13 台 Google 机器人。
OXE (Open‑X Embodiment)：1.4M 轨迹，527 技能，160,266 任务，22 种机器人。
AgiBot World：1M 轨迹，87 技能，217 任务，100+ 台 AgiBot G1。

这些数字强烈暗示一个事实：泛化 ≈ 足够大的、多平台、多任务数据。

5.2 人类视频 & 自监督潜在动作

为了缓解机器人数据昂贵的问题，论文强调了各类 egocentric 数据集（Ego4D、EPIC‑KITCHENS、HOI4D 等）在 VLA 预训练中的价值。

关键是用世界模型/潜在动作学习，把“无显式动作标签”的人类视频变成可用信号，如 LAPA/UniVLA/UniSkill 那样。

5.3 自动标注 & 生成式增强：数据“增值流水线”

论文专门用了一个小节讲数据增强：

视觉增强：CACTI、GenAug、ROSIE 用 Stable Diffusion / Imagen Editor 改背景、改纹理、加干扰物，在不破坏几何结构和可供性的前提下提升鲁棒性；DreamGen 用视频 world model + IDM 做合成轨迹。
语言增强：DIAL 用小规模 seed，LLM 生成大量改写，再用 VLM 匹配轨迹，构建大规模指令标注数据。
动作增强：CCIL 等方法用局部动力学模型合成“纠错”轨迹，缓解分布外状态问题。

而在标注流水线方面，ECoT、EMMA‑X、NILS、RoboMIND 综合用 GroundingDINO + SAM + Gemini/GPT‑4 等，把原始视频自动切分成子任务、加状态/指令描述，大幅减少人力。

六、评测与落地：RobotPlatform、baseline && Safety

6.1 仿真 benchmark：LIBERO / ManiSkill / Habitat / RLBench…

表 2（第 23 页）把主流仿真基准梳理成一张表，包括任务类型、场景数量、模态和物理引擎等信息。

大致可以归类：

MuJoCo 系：robosuite/robomimic/RoboCasa/LIBERO 等；
PhysX/SAPIEN 系：ManiSkill 1–3、ManiSkill‑HAB、RoboTwin；
PyBullet 系：Ravens/VIMA‑BENCH/LoHoRavens/CALVIN；
V‑REP 系：RLBench/COLOSSEUM；
Unity 系：AI2‑THOR/CHORES。

特别是 LIBERO（130 个自然语言操控任务）与 COLOSSEUM（20 任务、14 种环境扰动），已成为 VLA 评测的“新标准”。

同时，SIMPLER 和 RoboArena 开始解决“仿真 vs 现实” 的 gap：

SIMPLER：强调 real‑to‑sim 评测的高相关性设计。
RoboArena：在 7 所大学真实机器人上进行分布式 pairwise 评测，构建更公平的排行榜。

6.2 真实机器人：从机械臂到人形

论文第 7 节详细罗列了 VLA 中常见的机器人平台：

Manipulator：Franka、UR、KUKA、xArm、WidowX/ViperX、ALOHA 系列……
Gripper / Hand：两指夹爪、四指 LEAP hand、五指 Shadow hand 等；
Mobile：LoCoBot、Hello Stretch、Google Robot、AgiBot G1 等；
Quadruped：Unitree Go1/Go2、Spot、ANYmal；
Humanoid：Fourier GR‑1、Unitree G1/H1、Booster T1 等。

这些平台上的代表应用包括：

Shake‑VLA：机器人摇鸡尾酒；
RoboNurse‑VLA：手术器械传递；
TrackVLA/NaVILA：四足在野外导航；
EgoVLA/GO‑1：家庭场景下的人形/四足操控。

6.3 安全与失败恢复：VLA 的现实考卷

作者在第 IX 节专门讨论了安全与故障恢复：

当前 VLA 很少显式处理意外人类出现、碰撞风险等安全场景；
多数系统缺乏系统性的失败检测和重规划机制；
SAFE、Agentic Robot、LoHoVLA、FOREWARN 等开始用世界模型或层级架构来预测失败、触发恢复。

简单说，现在 VLA 还比较莽，要进工厂/医院/家庭，安全与可控性，会成为下一个大主题。

七、拿来主义的玩法

站在一个想做研究或产品的人角度，我觉得这篇综述可以直接变成几个非常实用的 checklist：

7.1 架构选型 checklist

根据论文图 4–6，可以为自己的项目做一个三步选型：

任务属性：短 vs 长时序、控制频率、有无复杂接触？
数据类型：有多少机器人轨迹？有无大量人类视频？有无 3D/触觉？
算力预算：训练与部署的 GPU 规模和实时性要求？

然后在七类 sensorimotor + 三类 world model + 三类 affordance 模型里挑组合，例如：

仓储拣选 + 机械臂 + 中低频控制 → VLM + 离散 action token（RT‑2/OpenVLA 风格）；
倒水/擦桌子 + 高速轨迹 → VLM + Flow Matching 头（π0）；
人形/四足 + 大量人类视频 → 世界模型 + 潜在动作（LAPA/UniVLA）+ VLM 头。

7.2 数据策略：NOT ONLY“多采点示教”

论文给了很多可以直接工程化的思路：

用人类 egocentric 视频 + 潜在动作学习扩充数据；
用 Stable Diffusion / 世界模型做 视觉风格增强，提升 domain generalization；
用 GroundingDINO + SAM + LLM 搭一套自动标注流水线，把“干净的小数据集合”扩展成“多标注的大数据”。

这几乎是一条现成的 数据增值 pipeline。

7.3 训练 recipe：如何不把预训练 VLM 训练废

作者明确推荐了梯度隔离和分阶段训练：

预训练阶段：
- 用人类视频 + 多机器人数据，训练世界模型/潜在动作和 VLA 主干；
- 尽量冻结或部分冻结 VLM backbone，避免随机动作头梯度破坏已有表示。
后训练阶段：
- 在你的高质量机器人数据上，
- 只训练动作头或用 LoRA 微调；
- 如算力允许，再做有限次 full fine‑tune。

推理阶段，可以启用 RTC / VLA‑Cache / 层级早停等等小 trick，显著降低延迟。

7.4 背景知识

问了下GPT相关的概念，它推荐我顺带阅读以下背景知识，在这里贴一下。

Transformer & Diffusion/Flow Matching 的基本原理；
CLIP、SigLIP、DINOv2、BLIP‑2、LLaVA 这些 VLM/MLLM 的结构；
机器人运动学与控制接口（位置/速度/力控）；
行为克隆、DAgger、Diffusion Policy、Offline RL 等模仿/强化学习基础；
点云/体素/NeRF/高斯 Splatting 等 3D 表示。