9 模型 · 11 实验 · 10 家公司
Yuanbo Yang · UCSD · Hao AI Lab · 2026-05| PI | π0.7 |
| Generalist | GEN-1 |
| Figure | Helix |
| Gemini Robotics | |
| NVIDIA | GR00T N1.5 |
| 1X | 1XWM |
| Rhoda | FutureVision ($450M) |
| NVIDIA | DreamZero |
| NVIDIA+Stanford | Cosmos Policy |
VLA ~5Hz vs WAM ~0.4Hz
| 系统 | 一句话 | 我们的数据 |
|---|---|---|
| π0.7 | 4 组件 pipeline,300M Action Expert | 200ms / 5Hz |
| GEN-1 | 黑箱,500K hr 穿戴数据 pretrain | 无 |
| GENE-26.5 | 20-DoF 灵巧手 + sensor glove + sim | 无 |
| Cosmos Policy | 2B DiT,action = latent frame | 659ms / 1.5Hz |
| DreamZero | 14B video WM → 蒸馏 policy | 无 |
| LingBot-VA | 加 video gen → 慢 34x | 2518ms / 0.4Hz |
| Rhoda | "Direct Video Action",零技术披露 | 无 |
| 硬件 | RTX 5880 Ada 48GB × 1 (xdlab23) |
| 精度 | bf16, sdpa (OpenVLA: eager attn) |
| 输入 | 224×224 synthetic tensor, batch=1 |
| 统计 | warmup=15, iter=20, 报 median |
| 计时 | CUDA event (torch.cuda.Event, enable_timing=True) |
| 阶段 | E (vision encode) / C (LLM prefill) / A (action head) |
| 权重 | real: Pi-Zero, Cosmos, OpenVLA-OFT random: 其余 6 个 (验证 Δ<12%, exp07b) |
warmup=15 来自 exp07a: 前 12 次 GPU 功率爬坡导致 bimodal 分布 (1.25x)。nvidia-smi -pm 1 后仍需 warmup。
红线 = 10Hz。只有 OFT 过线。
瓶颈从 action 转到 backbone。
| 范式 | 延迟 | Hz | |
|---|---|---|---|
| 1 | ACT (single forward) | 3ms | 300 |
| 2 | VLM + flow head | 74ms | 13 |
| 3 | Action DiT | 200-407ms | 2.5-5 |
| 4 | Full WAM | 2518ms | 0.4 |
| 5 | OFT | 63-109ms | 9-16 |
跳跃 3 最重。跳跃 5 砍迭代换速度。
| Params | Per-Step | Cross-Attn Tax | |
|---|---|---|---|
| OFT MLP | ~2M | 0.13ms | — |
| NitroGen | 174M | 7.2ms | 无 |
| Pi-Zero Expert | 300M | 16.5ms | +35% |
| Fast-WAM | 350M | 32ms | +100% |
| Cosmos | 2B | 76.8ms | monolithic |
Cross-attn 是隐藏税。
| VLM | VLA fine-tune 后 | |
|---|---|---|
| Gini | >0.91 | 0.07 |
| Sink | Pos 2 (12-28x) | Pos 64 |
| Entropy | V-shape | flat |
VLM pruning 不可迁移到 VLA。
| FastVideo STA / 蒸馏 / caching |
| → Pi-Zero, Fast-WAM, Cosmos |
| OFT + flash-attn / 量化 |
| → OpenVLA-OFT, StarVLA-OFT |
单请求延迟差 2-10x。先加速,再 serving。
| Model | Random | Real | Δ |
|---|---|---|---|
| NitroGen | 7.2ms/step | 7.1ms/step | <2% |
| Pi-Zero | 200ms | 225ms | +12% |
| Fast-WAM LIBERO | — | 94.5% (paper 93.7%) | match |
inflation(X|Y) = 1 + v·a, R²=0.94
{E,A} 安全共卡。{P,D} 必须分开。
Y. · Yuanbo Yang · UCSD Hao AI Lab · 2026