2026-05-31
语言
主题
Everyday Paper
2026-04-01

Natural-Language Agent Harnesses

NLAH 把 agent harness 从控制器代码外化为可执行的结构化自然语言规范,并由 Intelligent Harness Runtime 解释运行,使 harness 可以跨系统迁移、比较与消融。

harnessarXivLinyue Pan, Lexiao Zou, Shuo Guo, Jingchen Ni, et al.
Back to Everyday Paper

论文分析:Natural-Language Agent Harnesses(NLAH)


第 0 节 — 论文元数据

字段内容
标题Natural-Language Agent Harnesses
作者与机构Linyue Pan、Shuo Guo、Jingchen Ni、Hai-Tao Zheng(清华大学深圳国际研究生院);Lexiao Zou(哈尔滨工业大学深圳)
发表载体 / 状态arXiv 预印本(2026 年 3 月 26 日提交),尚未同行评审
代码 / 数据可用性部分开源 — GitHub: https://github.com/curated-skills/natural-language-agent-harnesses
可重复性信号模型已指定(GPT-5.4,推理强度 xhigh);基础设施已指定(Ubuntu 24.04,64 核 / 251 GiB);子集规模已说明(SWE-bench 125 个,OSWorld 36 个);无置信区间,无随机种子

第 1 节 — 研究问题与动机

本文解决的具体问题是什么? 智能体 harness——控制多步模型调用、工具委托、工件管理和验证的编排层——目前以特定运行时的代码形式实现,散落在控制器、框架默认值和工具适配器中。本文提出:harness 控制逻辑能否被外化为可移植、可执行的自然语言制品,从而支持跨系统的有意义比较、消融和迁移?形式化目标是:定义一种 harness 控制表示类,同时满足(a)可在共享运行时下执行,(b)语义上等价于其代码对应物,(c)可进行模块化组合与消融。

现有方法为何在此失效? 现有系统将 harness 逻辑与运行时实现深度耦合 [paper]。无法干净地比较两个 harness,因为每个都在控制器中嵌入了不同假设。基于文本的提示格式(系统提示、AGENTS.md)仅携带单次调用指引,不具备多步控制语义,如契约、委托边界或持久状态 [paper]。工作流编译器(AutoFlow、AgentSpec)将自然语言翻译为特定运行时拥有的中间表示,丧失了可移植性 [paper, inferred]。现有方法均未提供将基础设施语义与 harness 级控制分离的共享运行时章程。

为什么这个问题值得解决? Harness 工程已成为实践中影响智能体鲁棒性的首要因素 [paper 引用实践者陈述]。将 harness 变为可比较的制品,将允许该领域对设计模式进行干净的消融——而这在每个 harness 都是专属代码包时根本无法实现。本文 RQ3 的结果显示,NLAH 重构超越了原生 OS-Symphony 代码(OSWorld 上 47.2% vs. 30.4%),表明外化表示本身(而非底层 LLM)可以驱动性能提升。


第 2 节 — 技术方案

核心贡献(一句话): 本文提出 Natural-Language Agent Harnesses(NLAH)——由 Intelligent Harness Runtime(IHR)解释执行的结构化自然语言多步智能体控制表示,使 harness 逻辑能够独立于控制器代码进行外化、迁移和消融,而先前的代码内嵌或工作流编译 harness 均无法做到这一点。

方法流程:

  • 输入编码: 任务输入通过 IHR 进入。运行时读取:(1)NLAH 规范(结构化自然语言文档,定义契约、角色、阶段拓扑、适配器、状态语义、失败分类);(2)当前环境状态;(3)共享运行时章程(定义执行语义的固定 skill)。所有状态外化为路径可寻址的文件工件(TASK.md、task_history.jsonl、工件目录)。
  • 关键架构组件:
    • IHR:运行时内置 LLM。每步 LLM 读取 NLAH + 状态 + 章程,选择合规动作。
    • 契约:明确指定所需输入/输出、预算、权限范围、重试/停止条件。
    • 文件支持状态:工件写入命名路径;后续阶段通过精确路径重新打开。可在 context 截断和委托时存活。
    • 多智能体接口:spawn_agent / wait_agent 调用创建受契约约束的子智能体。
  • 训练目标: 无——这是运行时设计,非训练模型。
  • 训练与推理差异:不适用。

真正的新颖点: 先前工作将自然语言用于单次调用提示(context 工程)或将其编译为运行时拥有的中间表示。NLAH 将 harness 控制——角色、契约、验证门、委托边界、持久状态语义——作为由 LLM 运行时直接解释的一等自然语言对象。逻辑差异在于:先前工作假设 harness 结构必须是代码;本文测试运行时内置 LLM 是否能以足够的保真度解释结构化自然语言,以匹配甚至超越代码 harness。

复杂度分析:

  • Token 开销:基于 NLAH 的 trace 更密集(OSWorld 迁移中 58.5 个日志事件 vs. 原生 18.1 步)[paper],总提示 token 增加约 37%(11.4M → 15.7M)。
  • 挂钟时间:NLAH 运行时在 OSWorld 迁移中更快(140.8 分钟 vs. 原生 361.5 分钟)[paper],主要因为子委托拓扑重组避免了冗余子搜索。
  • LLM 调用次数:大幅减少(34 vs. 原生约 1200)[paper]——反映拓扑重组效果,而非原始效率提升。

第 3 节 — 实验验证

主要结果表:

数据集指标代码基线NLAH(本文)Δ
SWE-bench Verified(TRAE 完整 IHR)任务成功率74.4%— [paper]
SWE-bench Verified(Live-SWE 完整 IHR)任务成功率72.8%— [paper]
SWE-bench Verified(self-evolution 模块)任务成功率基础 75.2%80.0%+4.8 [paper]
OSWorld(file-backed state 模块)任务成功率基础 41.7%47.2%+5.5 [paper]
OSWorld(NLAH vs. 原生 OS-Symphony)任务成功率原生代码: 30.4%47.2%+16.8 [paper]

消融实验分析: Table 3 逐模块进行消融。关键发现 [paper]:

  • Self-evolution 是 SWE-bench 上最强贡献者(+4.8 pp),在两个基准上均一致。
  • File-backed state 对 OSWorld 帮助更大(+5.5 pp)——可能因为 OSWorld 任务更多在恢复/收尾阶段失败,而非意图表达阶段。
  • Multi-candidate searchVerifier替换者(交换哪些实例被解决)而非扩展者(解决更多),当其验收标准与基准评估者偏离时会产生回退。
  • Dynamic orchestration 对 SWE-bench 几乎无影响(0.0),对 OSWorld 小幅正向(+2.7 pp)。 规律清晰:模块在收紧从中间行为到评估者验收的路径时有效;在增加验收标准弱对齐的额外层时反而有害。

统计严谨性:

  • 所有结果均无置信区间 [paper]。
  • 子集规模较小(SWE-bench 125 个,OSWorld 36 个)——均低于标准评估规模。
  • 未报告随机种子或运行次数。
  • OSWorld 消融(36 个样本)尤为脆弱;单个任务翻转 = 2.8 pp 的变动。

潜在混淆因素:

  • 使用的模型(GPT-5.4,推理强度 xhigh)极为强大;部分 NLAH 增益可能反映更好的提示设计,而非 NLAH 格式本身。
  • RQ3 对比(NLAH vs. 原生 OS-Symphony)未受控——不同执行拓扑、不同验证策略、不同子智能体结构。该对比将表示格式与架构重设计混为一谈。
  • OSWorld 样本量(36)使所有百分比差异在面值上不可靠。

第 4 节 — 批判性评审

运行时内置 LLM 解释引入不透明性 [inferred, 中等] IHR 的内置 LLM 在每步解释 NLAH 规范。这意味着 harness 行为不再确定——相同 NLAH 在不同 LLM 实例或温度下可能产生不同执行路径。论文承认"自然语言不如代码精确",但未量化该方差 [paper]。

RQ3 混淆了表示与架构 [paper-可证实, 严重(针对 RQ3 声明)] OS-Symphony 的 NLAH 重构不仅改变了表示格式——还重定位了搜索拓扑、改变了验证策略(屏幕可信度 → 文件支持证据)、重组了子委托结构。OSWorld 上 16.8 pp 的增益因此无法单独归因于 NLAH 作为表示格式的贡献。这是本文最显著的声明范围问题。

样本规模 [paper-可证实, 中等] 36 个 OSWorld 样本不足以支持统计结论。离散任务结果下,±3 个任务波动产生 ±8.3 pp 的变动。Table 3 OSWorld 列中的大多数报告差值均在此误差范围内。

"可移植且可比较"需要更多证据 [inferred, 中等] 可移植性声明是论文论点的核心,但 RQ3(主要可移植性测试)仅将一个原生 harness(OS-Symphony)与其 NLAH 重构进行比较。未提供证据表明为一个任务家族编写的 NLAH 能迁移到另一个任务家族,或消融结果能在不同 NLAH 作者间复现。

客观优点:

  • 概念贡献真正有价值:命名并形式化 harness 模式层(契约、角色、阶段结构、文件支持状态、失败分类)是有意义的贡献,独立于实验结果。
  • 模块消融方法论(Table 3)是正确的实验设计。"模块是替换者而非扩展者"的发现是实质性洞察。
  • RQ1 过程指标(Table 4 显示 TRAE 活动 90%+ 在子智能体中)为 IHR 运行时实际行为提供了有用的机制洞察。

第 5 节 — 综合总结

TL;DR(30 秒摘要): NLAH 将智能体 harness 控制逻辑外化为由 LLM 运行时内置(IHR)解释的结构化自然语言文档,支持可移植、可消融的 harness 设计。模块消融显示 self-evolution 和 file-backed state 贡献最强;OS-Symphony 的 NLAH 重构在 OSWorld 上比原生代码高出 16.8 pp。核心局限:OSWorld 评估仅使用 36 个样本,迁移比较混淆了表示格式与架构重设计。

创新类型判断: 方法突破 —— NLAH/IHR 框架是既有 agentic 编排框架内的新表示类,而非范式转变。

部署成熟度: 运行时章程和 NLAH 格式要求部署的 LLM 足够强大,能可靠解释复杂结构化自然语言(目前为 GPT-5.4,xhigh 推理)。可移植性声明在不同 LLM 后端未得到验证。尚处早期阶段;需要更大规模评估才能投入生产。

开放问题:

  1. OSWorld 增益中有多少来自 NLAH 格式本身,有多少来自执行拓扑的架构重设计?保持拓扑固定的受控消融将回答这一问题。
  2. 一位实践者编写的 NLAH 能否在 IHR 下为另一位实践者的用例正确执行,还是隐式知识以不可移植的方式渗入自然语言?
  3. 当内置 LLM 误解契约规范时,失败模式分布如何?发生频率如何,如何检测?

复现注意事项:

  • 需要 GPT-5.4 xhigh 推理;其他模型的行为未经测试。
  • "共享运行时章程"是固定 skill——其确切内容对所有结果有实质影响,轻微修改将改变所有模块消融数字。
  • OSWorld 需要完整桌面环境基础设施;36 个样本不足以摊销此设置成本。
  • 原生 OS-Symphony 代码基线在论文中未公开指定;复现 RQ3 需独立重建。