DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models

DualCoT-VLA 在单次前向传播中并行运行视觉 3D 感知与语言逻辑规划两条隐式 CoT 流，推理延迟仅 58ms（比自回归 CoT 快 54×），在 LIBERO 上达到 98.8% 成功率并成功迁移至真实机器人。

vlmarXivZhide Zhong, Junfeng Li, Junjie He, Haodong Yan, et al.

第 0 节 — 论文元数据

字段	内容
标题	DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models
作者与机构	Zhide Zhong、Junfeng Li、Junjie He、Haodong Yan、Xin Gong（香港科技大学（广州））；Guanyi Zhao、Yingjie Cai 等（华为基础模型部门）；Yingcong Chen、Liuqing Yang、Haoang Li（香港科技大学（广州））
发表载体 / 状态	arXiv 预印本，2026 年 3 月 23 日（v1）
代码 / 数据可用性	未提及代码开放；使用 LIBERO 和 RoboCasa 公开基准 [paper]
可重复性信号	LIBERO 和 RoboCasa 基准公开；AgileX Cobot 硬件平台需独立访问 [paper]

第 1 节 — 研究问题与动机

本文解决的具体问题是什么？ Vision-Language-Action（VLA）模型在机器人操作中面临两类挑战：(1) 单一模态的链式思维（仅视觉或仅语言 CoT）无法同时满足空间感知与逻辑规划需求；(2) 自回归 CoT 解码导致推理延迟过长（>3 秒），不适合实时控制。

现有方法为何在此失效？ 仅视觉 CoT 在空间密集任务表现好但长程规划弱；仅语言 CoT 在语义规划强但空间定位精度不足；自回归 token 解码推理延迟（3156ms）远超实时控制要求（<100ms）。[paper]

为什么这个问题值得解决？ 机器人操作的通用化是体现 AGI 具身智能的核心挑战；VLA 模型作为端到端方法具有良好前景，但推理能力与实时性之间的矛盾制约了实际部署。[paper]

第 2 节 — 技术方案

核心贡献（一句话）: DualCoT-VLA 通过两组可学习查询 token（16 个视觉 + 4 个语言），在单次前向传播中并行运行视觉 CoT（3D 空间感知）与语言 CoT（逻辑规划），将推理延迟从 3156ms 降至 58.1ms。

方法流程:

视觉 CoT 流：通过交叉注意力投影和 MSE 损失，从冻结的 Depth Anything 3 模型蒸馏 3D 空间理解能力
语言 CoT 流：将连续隐状态输入冻结的辅助 LLM，通过交叉熵损失重建明确的任务规划文本
并行实现：两组可学习查询 token 在同一前向传播中独立运行，消除串行依赖
动作头：Diffusion Transformer 预测连续动作
训练目标：联合优化视觉蒸馏损失 + 语言重建损失 + 动作预测损失

真正的新颖点: 在连续潜空间中实现隐式并行 CoT，避免自回归解码的延迟瓶颈；视觉（3D 深度感知）和语言（逻辑规划）的双流蒸馏设计。[paper]

复杂度分析: 相比非 CoT 基线仅增加 4.4ms 额外开销（58.1ms vs 53.7ms），比自回归 CoT 快约 54×（3156ms → 58.1ms）。[paper]

第 3 节 — 实验验证

基准	指标	先前最优	本文结果	Δ
LIBERO 平均	成功率	97%	98.8%	+1.8pp
LIBERO Spatial	成功率	—	99.4%	—
LIBERO Long	成功率	—	96.0%	—
RoboCasa GR1	成功率（24 任务平均）	—	55.1%	—
真实机器人（AgileX）	成功率	—	成功演示	—

消融实验分析: (1) 仅视觉 CoT：Spatial 任务最优，Long 任务弱；(2) 仅语言 CoT：Long 任务最优，Spatial 任务弱；(3) 双流：互补效果，全面最优。消融验证了双模态设计的必要性。[paper]

统计严谨性: 未报告标准差或置信区间；多任务（24 个 RoboCasa 任务）评测提高了结论可信度。[inferred]

潜在混淆因素: LIBERO 基准已接近饱和（基线 97%），改进空间有限；RoboCasa 55.1% 未与基线对比，难以评估实际提升幅度。[inferred]

第 4 节 — 批判性评审

方法层面的隐患: 冻结辅助 LLM 用于语言 CoT 蒸馏可能引入固定语言偏见；两组查询 token（16+4）的超参数选择缺乏消融分析。[inferred]

实验层面的问题: LIBERO 基准接近饱和（98.8% vs 97%）；RoboCasa 无绝对基线比较；真实机器人实验范围（3 个任务）有限；未报告失败案例分析。[paper]

声明范围: SOTA 声明在 LIBERO 和 RoboCasa 上有据可查；推理速度声明（54× 加速）数据清晰。[paper]

客观优点: 即插即用设计（可集成至现有 VLA 框架）；仿真到真实迁移（sim-to-real）的成功演示；推理加速的实际价值突出。[paper]

第 5 节 — 综合总结

TL;DR（30 秒摘要）: DualCoT-VLA 在单次前向传播中并行运行视觉 3D 空间感知与语言逻辑规划两条隐式 CoT 流，在 LIBERO 上达到 98.8% 成功率，在 RoboCasa 上 55.1%，推理延迟仅 58.1ms（比自回归 CoT 快 54×），并成功在真实机器人上演示。

创新类型判断: 架构创新（Architecture Innovation）——隐式并行潜空间 CoT 设计解决了推理能力与实时性的根本矛盾。[paper]

部署成熟度: TRL 5-6（仿真 + 有限真实机器人演示）。[inferred]

开放问题: 在更复杂多步任务（>10 步）上的表现；泛化至新物体/新场景的零样本能力；视觉 CoT 所依赖的 Depth Anything 3 在遮挡场景下的鲁棒性。[inferred]

复现注意事项: LIBERO 和 RoboCasa 基准公开；Depth Anything 3 模型通过 HuggingFace 可获取；AgileX Cobot 硬件需独立采购；代码未开放。[paper]