Meta-Harness: End-to-End Optimization of Model Harnesses

Meta-Harness 让 agentic proposer 读取全部候选代码、执行 trace 与分数，在不压缩反馈的前提下自动搜索 harness，并在 TerminalBench-2 等任务上超过多数人工设计基线。

harnessarXivYoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, et al.

论文分析：Meta-Harness — 模型 Harness 的端到端优化

第 0 节 — 论文元数据

字段	内容
标题	Meta-Harness: End-to-End Optimization of Model Harnesses
作者与机构	Yoonho Lee、Roshen Nair、Qizheng Zhang（斯坦福大学）；Kangwook Lee（KRAFTON）；Omar Khattab（MIT）；Chelsea Finn（斯坦福大学）
发表载体 / 状态	arXiv 预印本（2026 年 3 月 30 日提交），尚未同行评审
代码 / 数据可用性	已开源（GitHub，提交时 53 star），URL 未在论文中确认
可重复性信号	未报告随机种子；主要结果无置信区间；算力细节部分提供（隐含 NVIDIA 硬件）；数据集划分方式仅定性描述为"已去污染"

第 1 节 — 研究问题与动机

本文解决的具体问题是什么？ 给定冻结的语言模型 $M$ 和任务分布 $\mathcal{X}$ ，目标是找到最优 harness $H^*$ ——一个控制模型存储、检索和接收哪些信息的可执行 Python 程序——以最大化期望奖励： $H^* = \arg\max_H \mathbb{E}[r(\tau, x)]$ 。当前 harness 设计完全依赖人工，耗时费力，且在相同模型上不同 harness 之间的性能差距最高可达 6 倍。本文目标是实现 harness 的自动化端到端搜索。

现有方法为何在此失效？ 现有文本优化器（GEPA、OpenEvolve、TTT-Discover、Best-of-N）与该搜索空间严重不匹配，原因在于它们对反馈信息进行了过度压缩 [paper]：部分方法仅依赖当前候选，另一些仅使用标量分数或简短摘要。论文指出，harness 诊断每次迭代最多需要 1000 万 token 的执行 trace 信息——远超这些方法的处理能力。Table 3 提供了决定性证据：仅给 proposer 提供分数时，中位准确率为 34.6%；提供完整 trace 时则达到 50.0% [paper]。

为什么这个问题值得解决？ Harness 工程目前是实践者对 LLM 系统性能拥有的最大调节杠杆，却完全依赖手工完成。自动化这一环节可以消除已被证实能带来 6 倍性能差异的人工瓶颈 [paper]。论文在 TerminalBench-2 上的结果显示，自动发现的 harness（公开排名第 2）超越了大多数人工设计的参赛作品，实际价值具体可感。

第 2 节 — 技术方案

核心贡献（一句话）： 本文提出 Meta-Harness，通过赋予 agentic proposer（Claude Code，Opus 4.6）对所有历史候选代码、执行 trace 和分数的完整文件系统访问权，实现了先前压缩反馈优化器无法支持的因果假设形成能力。

方法流程：

初始化： 将一批 harness（zero-shot、few-shot 和手工基线）评估后存入文件系统 $\mathcal{D}$ ，连同执行 trace 和分数一并保存。
提案： 编程智能体（Claude Code）通过标准工具（grep、cat）查询 $\mathcal{D}$ ，读取源代码（41% 的读取），执行 trace（40%）及分数摘要（6%），然后提出 $k$ 个新 harness。
评估： 执行提案 harness，验证接口合规性，将结果存回 $\mathcal{D}$ 。
迭代： 循环约 20 次迭代（每个领域约 60 次 harness 评估）。
训练与推理差异：无——harness 是包裹推理的代码，无梯度训练。

真正的新颖点： 先前优化器将优化视为文本输入/文本输出问题，强制所有反馈经过狭窄的摘要瓶颈。Meta-Harness 完全放弃摘要假设：不将 1000 万 token 压缩进提示词，而是以文件形式存储，让 proposer 按需检索。核心洞察是：代码优化的诊断信息天然稀疏——你需要 harness 失败的具体 trace，而非平均摘要。

复杂度分析：

每次迭代： $O(k \times n_{eval})$ 次 harness 评估，其中 $n_{eval}$ 为留出样本数 [inferred]
文件系统存储随迭代次数和 trace 大小线性增长 [inferred]
Proposer 本身（Claude Code Opus 4.6）运行不受约束的 agentic 会话；论文未给出正式复杂度界 [paper 未提及]

第 3 节 — 实验验证

主要结果表：

数据集	指标	先前 SOTA	本文结果	Δ
文本分类（3 数据集均值，搜索集）	准确率	ACE: 40.9%	48.6%	+7.7 [paper]
文本分类（3 数据集均值，搜索集）	Context token	ACE: 50.8K	11.4K	−4.4× [paper]
文本分类 vs. 文本优化器（中位）	准确率	OpenEvolve: 39.1%	50.0%	+10.9 [paper]
文本分类（9 数据集 OOD 均值）	准确率	ACE: 70.2%	73.1%	+2.9 [paper]
IMO 级数学（5 模型均值，200 题）	Pass@1	BM25: 37.5%	38.8%	+1.3 [paper]
TerminalBench-2（Opus 4.6）	通过率	Terminus-KIRA: 74.7%	76.4%	+1.7 [paper]
TerminalBench-2（Haiku 4.5）	通过率	Terminus-KIRA: 33.7%	37.6%	+3.9 [paper]

消融实验分析： Table 3（文本分类）是本文最有力的消融实验。将完整 trace 访问切换为"仅分数"后，中位准确率从 50.0% 骤降至 34.6%；切换为"分数 + 摘要"则为 34.9%——几乎相同。结论清晰：摘要相对于原始分数毫无边际贡献，全部增益来自原始 trace 访问 [paper]。

统计严谨性：

主要结果无置信区间或标准差 [paper]
未报告随机种子或独立运行次数
未进行显著性检验
这是一个显著的质量缺口。所有结果反映单次搜索过程；无法评估独立试验间的方差。

潜在混淆因素：

TerminalBench-2：论文在相同 89 个任务上搜索并评估 [paper]。虽以"发现问题"范式为由，但过拟合风险不为零，±1.7% / ±3.9% 的增益均为样本内度量。
数学基线选择：BM25 使用固定检索，无领域感知路由；发现的 harness 使用四路领域专用路由器。对比在方法论上不对等。
Proposer 依赖：Proposer 是 Claude Code Opus 4.6——它既是优化器，又是评估 harness 时的主干模型。Anthropic 模型因此获得双重优势（优化器 + 目标模型），未加以控制。

第 4 节 — 批判性评审

Proposer 与模型的纠缠 [inferred, 中等] Claude Code（Opus 4.6）作为 proposer，其发现的 TerminalBench-2 harness 将环境 bootstrap 注入 Claude Code 自身的 context。Proposer 对 Claude Code 行为的了解（本质上是同一模型）可能带来隐性的自我知识利用。对非 Claude 基础模型的泛化性在数学部分有部分测试，但在 agentic coding 中未验证。

单次运行结果缺乏方差 [paper-可证实, 中等] 所有主要结果均来自单次搜索轨迹。文本分类 7.7 分的提升（50 次迭代）在不同 seed 间可能波动 ±5 分。缺乏重复实验，无法确认 Meta-Harness 是否可靠优于基线，还是报告的增益来自有利的初始化。

TerminalBench-2 样本内评估 [paper-可证实, 中等] 搜索与最终报告分数使用相同 89 个任务。论文以排行榜标准实践为由辩护，但这意味着"自动 harness"专门针对该任务集优化，而手工设计竞争者（Terminus-KIRA、ForgeCode）很可能并非如此。

效率声明需加限定 [inferred, 轻微] "减少 4.4 倍 context token"是针对每次任务步骤的，而非每次搜索运行。单次 Meta-Harness 搜索消耗巨大算力（Claude Code Opus 4.6 运行 20+ 次迭代，每次迭代数百万 token）。效率声明仅适用于推理时的结果 harness，不适用于搜索本身。

客观优点：

Table 3 的消融实验干净且决定性——信息瓶颈假设被直接验证，结果无歧义。
附录 A.2 对 proposer 形成和修正因果假设的定性 trace 分析真正引人信服，在优化文献中罕见。
9 个未见文本分类数据集的 OOD 评估（Table 5）确认发现的 harness 可迁移，直接回应了最明显的过拟合批评。

第 5 节 — 综合总结

TL;DR（30 秒摘要）： Meta-Harness 通过赋予编程智能体（Claude Code）对完整搜索历史（代码、trace、分数）的文件系统访问权来自动化 harness 工程，而非使用压缩摘要。在文本分类上相比最佳手工基线提升 7.7 分，同时减少 4 倍 token 消耗，并在 TerminalBench-2 上产生公开排名第 2 的自动化结果。关键局限：所有结果均为单次运行，无方差报告，且 proposer 与评估基础模型属同一模型家族。

创新类型判断： 方法突破 —— harness 代码的搜索空间并非新概念，编程智能体作为优化器也已存在，但赋予 proposer 原始文件系统访问权而非压缩摘要是一个有力的架构选择，有强实证支撑。

部署成熟度： 发现的 harness 是可读的 Python 代码，可立即部署。搜索过程本身需要可观的 API 预算（Claude Code Opus 4.6 × 20+ 次迭代 × 数百万 token）。适合有基础设施运行扩展 agentic 评估的团队；不适合一次性使用。

开放问题：

在不同随机种子下，发现的 harness 有多稳定？在信任搜索结果用于生产前，方差量化不可或缺。
搜索结果能否跨基础模型家族泛化——即为 Opus 4.6 发现的 harness 是否无需重新搜索即可迁移至 Gemini 或 GPT？
Meta-Harness 能否联合优化 harness 代码和模型专用提示词，或者搜索空间会因此变得过大？

复现注意事项：

需要开启"最大推理"的 Claude Code Opus 4.6 访问权限——成本不低且并非普遍可得。
数学语料去污染流程定性描述，缺乏精确 50 万题语料库即无法复现。
TerminalBench-2 环境搭建（89 个任务沙盒）带来显著基础设施开销。
未报告随机种子；复现需从头开始，方差不可预知。