Natural-Language Agent Harnesses

NLAH 把 agent harness 从控制器代码外化为可执行的结构化自然语言规范，并由 Intelligent Harness Runtime 解释运行，使 harness 可以跨系统迁移、比较与消融。

harnessarXivLinyue Pan, Lexiao Zou, Shuo Guo, Jingchen Ni, et al.

论文分析：Natural-Language Agent Harnesses（NLAH）

第 0 节 — 论文元数据

字段	内容
标题	Natural-Language Agent Harnesses
作者与机构	Linyue Pan、Shuo Guo、Jingchen Ni、Hai-Tao Zheng（清华大学深圳国际研究生院）；Lexiao Zou（哈尔滨工业大学深圳）
发表载体 / 状态	arXiv 预印本（2026 年 3 月 26 日提交），尚未同行评审
代码 / 数据可用性	部分开源 — GitHub: https://github.com/curated-skills/natural-language-agent-harnesses
可重复性信号	模型已指定（GPT-5.4，推理强度 xhigh）；基础设施已指定（Ubuntu 24.04，64 核 / 251 GiB）；子集规模已说明（SWE-bench 125 个，OSWorld 36 个）；无置信区间，无随机种子

第 1 节 — 研究问题与动机

本文解决的具体问题是什么？ 智能体 harness——控制多步模型调用、工具委托、工件管理和验证的编排层——目前以特定运行时的代码形式实现，散落在控制器、框架默认值和工具适配器中。本文提出：harness 控制逻辑能否被外化为可移植、可执行的自然语言制品，从而支持跨系统的有意义比较、消融和迁移？形式化目标是：定义一种 harness 控制表示类，同时满足（a）可在共享运行时下执行，（b）语义上等价于其代码对应物，（c）可进行模块化组合与消融。

现有方法为何在此失效？ 现有系统将 harness 逻辑与运行时实现深度耦合 [paper]。无法干净地比较两个 harness，因为每个都在控制器中嵌入了不同假设。基于文本的提示格式（系统提示、AGENTS.md）仅携带单次调用指引，不具备多步控制语义，如契约、委托边界或持久状态 [paper]。工作流编译器（AutoFlow、AgentSpec）将自然语言翻译为特定运行时拥有的中间表示，丧失了可移植性 [paper, inferred]。现有方法均未提供将基础设施语义与 harness 级控制分离的共享运行时章程。

为什么这个问题值得解决？ Harness 工程已成为实践中影响智能体鲁棒性的首要因素 [paper 引用实践者陈述]。将 harness 变为可比较的制品，将允许该领域对设计模式进行干净的消融——而这在每个 harness 都是专属代码包时根本无法实现。本文 RQ3 的结果显示，NLAH 重构超越了原生 OS-Symphony 代码（OSWorld 上 47.2% vs. 30.4%），表明外化表示本身（而非底层 LLM）可以驱动性能提升。

第 2 节 — 技术方案

核心贡献（一句话）： 本文提出 Natural-Language Agent Harnesses（NLAH）——由 Intelligent Harness Runtime（IHR）解释执行的结构化自然语言多步智能体控制表示，使 harness 逻辑能够独立于控制器代码进行外化、迁移和消融，而先前的代码内嵌或工作流编译 harness 均无法做到这一点。

方法流程：

输入编码： 任务输入通过 IHR 进入。运行时读取：（1）NLAH 规范（结构化自然语言文档，定义契约、角色、阶段拓扑、适配器、状态语义、失败分类）；（2）当前环境状态；（3）共享运行时章程（定义执行语义的固定 skill）。所有状态外化为路径可寻址的文件工件（TASK.md、task_history.jsonl、工件目录）。
关键架构组件：
- IHR：运行时内置 LLM。每步 LLM 读取 NLAH + 状态 + 章程，选择合规动作。
- 契约：明确指定所需输入/输出、预算、权限范围、重试/停止条件。
- 文件支持状态：工件写入命名路径；后续阶段通过精确路径重新打开。可在 context 截断和委托时存活。
- 多智能体接口：spawn_agent / wait_agent 调用创建受契约约束的子智能体。
训练目标： 无——这是运行时设计，非训练模型。
训练与推理差异：不适用。

真正的新颖点： 先前工作将自然语言用于单次调用提示（context 工程）或将其编译为运行时拥有的中间表示。NLAH 将 harness 控制——角色、契约、验证门、委托边界、持久状态语义——作为由 LLM 运行时直接解释的一等自然语言对象。逻辑差异在于：先前工作假设 harness 结构必须是代码；本文测试运行时内置 LLM 是否能以足够的保真度解释结构化自然语言，以匹配甚至超越代码 harness。

复杂度分析：

Token 开销：基于 NLAH 的 trace 更密集（OSWorld 迁移中 58.5 个日志事件 vs. 原生 18.1 步）[paper]，总提示 token 增加约 37%（11.4M → 15.7M）。
挂钟时间：NLAH 运行时在 OSWorld 迁移中更快（140.8 分钟 vs. 原生 361.5 分钟）[paper]，主要因为子委托拓扑重组避免了冗余子搜索。
LLM 调用次数：大幅减少（34 vs. 原生约 1200）[paper]——反映拓扑重组效果，而非原始效率提升。

第 3 节 — 实验验证

主要结果表：

数据集	指标	代码基线	NLAH（本文）	Δ
SWE-bench Verified（TRAE 完整 IHR）	任务成功率	—	74.4%	— [paper]
SWE-bench Verified（Live-SWE 完整 IHR）	任务成功率	—	72.8%	— [paper]
SWE-bench Verified（self-evolution 模块）	任务成功率	基础 75.2%	80.0%	+4.8 [paper]
OSWorld（file-backed state 模块）	任务成功率	基础 41.7%	47.2%	+5.5 [paper]
OSWorld（NLAH vs. 原生 OS-Symphony）	任务成功率	原生代码: 30.4%	47.2%	+16.8 [paper]

消融实验分析： Table 3 逐模块进行消融。关键发现 [paper]：

Self-evolution 是 SWE-bench 上最强贡献者（+4.8 pp），在两个基准上均一致。
File-backed state 对 OSWorld 帮助更大（+5.5 pp）——可能因为 OSWorld 任务更多在恢复/收尾阶段失败，而非意图表达阶段。
Multi-candidate search 和 Verifier 是替换者（交换哪些实例被解决）而非扩展者（解决更多），当其验收标准与基准评估者偏离时会产生回退。
Dynamic orchestration 对 SWE-bench 几乎无影响（0.0），对 OSWorld 小幅正向（+2.7 pp）。规律清晰：模块在收紧从中间行为到评估者验收的路径时有效；在增加验收标准弱对齐的额外层时反而有害。

统计严谨性：

所有结果均无置信区间 [paper]。
子集规模较小（SWE-bench 125 个，OSWorld 36 个）——均低于标准评估规模。
未报告随机种子或运行次数。
OSWorld 消融（36 个样本）尤为脆弱；单个任务翻转 = 2.8 pp 的变动。

潜在混淆因素：

使用的模型（GPT-5.4，推理强度 xhigh）极为强大；部分 NLAH 增益可能反映更好的提示设计，而非 NLAH 格式本身。
RQ3 对比（NLAH vs. 原生 OS-Symphony）未受控——不同执行拓扑、不同验证策略、不同子智能体结构。该对比将表示格式与架构重设计混为一谈。
OSWorld 样本量（36）使所有百分比差异在面值上不可靠。

第 4 节 — 批判性评审

运行时内置 LLM 解释引入不透明性 [inferred, 中等] IHR 的内置 LLM 在每步解释 NLAH 规范。这意味着 harness 行为不再确定——相同 NLAH 在不同 LLM 实例或温度下可能产生不同执行路径。论文承认"自然语言不如代码精确"，但未量化该方差 [paper]。

RQ3 混淆了表示与架构 [paper-可证实, 严重（针对 RQ3 声明）] OS-Symphony 的 NLAH 重构不仅改变了表示格式——还重定位了搜索拓扑、改变了验证策略（屏幕可信度 → 文件支持证据）、重组了子委托结构。OSWorld 上 16.8 pp 的增益因此无法单独归因于 NLAH 作为表示格式的贡献。这是本文最显著的声明范围问题。

样本规模 [paper-可证实, 中等] 36 个 OSWorld 样本不足以支持统计结论。离散任务结果下，±3 个任务波动产生 ±8.3 pp 的变动。Table 3 OSWorld 列中的大多数报告差值均在此误差范围内。

"可移植且可比较"需要更多证据 [inferred, 中等] 可移植性声明是论文论点的核心，但 RQ3（主要可移植性测试）仅将一个原生 harness（OS-Symphony）与其 NLAH 重构进行比较。未提供证据表明为一个任务家族编写的 NLAH 能迁移到另一个任务家族，或消融结果能在不同 NLAH 作者间复现。

客观优点：

概念贡献真正有价值：命名并形式化 harness 模式层（契约、角色、阶段结构、文件支持状态、失败分类）是有意义的贡献，独立于实验结果。
模块消融方法论（Table 3）是正确的实验设计。"模块是替换者而非扩展者"的发现是实质性洞察。
RQ1 过程指标（Table 4 显示 TRAE 活动 90%+ 在子智能体中）为 IHR 运行时实际行为提供了有用的机制洞察。

第 5 节 — 综合总结

TL;DR（30 秒摘要）： NLAH 将智能体 harness 控制逻辑外化为由 LLM 运行时内置（IHR）解释的结构化自然语言文档，支持可移植、可消融的 harness 设计。模块消融显示 self-evolution 和 file-backed state 贡献最强；OS-Symphony 的 NLAH 重构在 OSWorld 上比原生代码高出 16.8 pp。核心局限：OSWorld 评估仅使用 36 个样本，迁移比较混淆了表示格式与架构重设计。

创新类型判断： 方法突破 —— NLAH/IHR 框架是既有 agentic 编排框架内的新表示类，而非范式转变。

部署成熟度： 运行时章程和 NLAH 格式要求部署的 LLM 足够强大，能可靠解释复杂结构化自然语言（目前为 GPT-5.4，xhigh 推理）。可移植性声明在不同 LLM 后端未得到验证。尚处早期阶段；需要更大规模评估才能投入生产。

开放问题：

OSWorld 增益中有多少来自 NLAH 格式本身，有多少来自执行拓扑的架构重设计？保持拓扑固定的受控消融将回答这一问题。
一位实践者编写的 NLAH 能否在 IHR 下为另一位实践者的用例正确执行，还是隐式知识以不可移植的方式渗入自然语言？
当内置 LLM 误解契约规范时，失败模式分布如何？发生频率如何，如何检测？

复现注意事项：

需要 GPT-5.4 xhigh 推理；其他模型的行为未经测试。
"共享运行时章程"是固定 skill——其确切内容对所有结果有实质影响，轻微修改将改变所有模块消融数字。
OSWorld 需要完整桌面环境基础设施；36 个样本不足以摊销此设置成本。
原生 OS-Symphony 代码基线在论文中未公开指定；复现 RQ3 需独立重建。