Efficient Benchmarking of AI Agents

选取历史成功率 30-70% 的中等难度任务子集，可减少 44-70% AI Agent 评测任务量同时保持排名稳定性（Spearman ρ≈0.94），关键洞察是分布漂移下排名比绝对分数稳健得多。

agentarXivFranck Ndzomga

第 0 节 — 论文元数据

字段	内容
标题	Efficient Benchmarking of AI Agents
作者与机构	Franck Ndzomga（机构未说明）
发表载体 / 状态	arXiv 预印本，2026 年 3 月 24 日（v1）
代码 / 数据可用性	使用 Terminal-Bench 2.0 和 Holistic Agent Leaderboard（HAL）公开基准 [paper]
可重复性信号	评测协议详细，数据集公开，但 Terminal-Bench 部分数据需机构访问 [paper]

本文解决的具体问题是什么？ AI Agent 基准评测成本高昂（每次运行数百美元），如何在大幅减少评测任务数量（44-70%）的同时，保持 Agent 排名的稳定性？

现有方法为何在此失效？ 现有基准全量评测方法计算开销大，不适合频繁迭代开发；简单随机子采样高度不稳定（ρ波动从 0.54 到 0.99）；贪婪优化方法过拟合（最差情况 ρ=0.56）。[paper]

为什么这个问题值得解决？ Agent 评测的高成本是社区研究的主要瓶颈，降低评测成本可加速 Agent 开发迭代周期，使更多研究团队能够参与排行榜竞争。[paper]

核心贡献（一句话）: 提出中等难度过滤器（Mid-Range Filter，MR），选择历史成功率在 30-70% 的任务子集，无需优化即可在多种分布漂移情形下稳定保持 Agent 排名（ρ ≈ 0.94）。

方法流程:

真正的新颖点: 经验性发现"排名预测稳定性 vs 分数预测准确性的分裂"——分布漂移下排名稳健而绝对分数崩溃（R²从 0.90 降至 0.54），并基于此重新定义评测目标。[paper]

复杂度分析: MR 过滤器为确定性无训练方法，计算成本极低；需要 5-10 次全量基准运行以建立历史通过率。[paper]

协议	MR 平均 ρ	随机基线 ρ范围	贪婪最差 ρ
所有协议综合	0.94	0.54–0.99	0.56
时序扩展窗口	最稳定	高度不稳定	严重过拟合

消融实验分析: 在不同任务选择比例（30-70% 区间不同阈值）上验证一致性；最差情况 ρ=0.87 显示鲁棒性优于其他方法。[paper]

统计严谨性: 使用嵌套交叉验证避免数据泄露；同时报告 Spearman ρ 和 Kendall τ；多协议测试增强可信度。[paper]

潜在混淆因素: 历史通过率来自已有评测，需冷启动（5-10 次全量运行）；SciCode 等右偏难度分布基准上 MR 方法失效。[paper]

方法层面的隐患: 30-70% 阈值设定缺乏自适应机制，不同基准可能需要调整；冷启动成本（5-10 次全量运行）在新基准上较高。[inferred]

实验层面的问题: 仅覆盖通用 Agent 基准，未验证在高度专业化基准（医疗、法律）上的适用性；单一作者研究存在独立重复验证需求。[inferred]

声明范围: 论文明确说明 SciCode 等极端分布上方法失效，声明范围诚实。[paper]

客观优点: 方法极简（确定性、无训练、无超参数优化）；理论基础（IRT）清晰；实际成本节约显著（每次运行节省 $5-$ 253）。[paper]

TL;DR（30 秒摘要）: 只需选择历史成功率 30-70% 的"适中难度"任务，就能减少 44-70% 评测任务量同时维持 Agent 排名稳定性（ρ≈0.94）；关键洞察是分布漂移下排名比绝对分数稳健得多，因此评测目标应从精确评分转向稳定排名。

创新类型判断: 实用系统优化（Practical Systems Optimization）——基于经验洞察的简单有效工程方法。[paper]

部署成熟度: TRL 7-8（直接可部署，已在公开基准上验证）。[paper]

开放问题: 自适应阈值选择机制；首次评测无历史数据时的冷启动策略；在持续新 Agent 加入时的动态更新。[inferred]

复现注意事项: Terminal-Bench 2.0 部分数据需机构访问；HAL 基准公开可用；需建立历史通过率矩阵（冷启动成本）。[paper]