Meta-Harness: End-to-End Optimization of Model Harnesses
Meta-Harness 是一个外循环系统,使用具备代码编辑能力的 agentic proposer 通过文件系统访问所有历史候选 harness 的源码与执行轨迹,自动搜索并优化任务专属的 LLM harness,在文本分类、数学推理和 agentic 编码三个领域均取得超越手工设计基线的成果。
这里单独收住近期在看的论文入口,按时间排开,适合快速进入原文、alphaXiv 讲解页,或者外部线程。
Meta-Harness 是一个外循环系统,使用具备代码编辑能力的 agentic proposer 通过文件系统访问所有历史候选 harness 的源码与执行轨迹,自动搜索并优化任务专属的 LLM harness,在文本分类、数学推理和 agentic 编码三个领域均取得超越手工设计基线的成果。
这篇 deep research agent 的重点不是“搜得更长”,而是把 verification 前移到数据合成、轨迹构造和 test-time scaling 三层。对研究型 agent 来说,这比单纯堆 tool-call budget 更实用。
Medical AI Scientist 不是把通用 AI Scientist 硬搬到医学里,而是补上了 evidence grounding、伦理约束和医学写作结构。它最值得看的地方,是把想法质量和可执行实验成功率一起拉高。
PRCO 把感知和推理拆成 Observer / Solver 两个角色,并用不同 reward 做 credit assignment。对多模态 RL 来说,这比“只看最后答案对不对”更像一次真正的结构升级。
把 agent 轨迹中的局部教训提炼成可迁移 skill,而不是每条轨迹都在线补丁式修修补补,是这篇最打动人的地方。它说明 skill 文档本身可以成为独立于参数的长期资产。
这篇把 diffusion 放进 humanoid control loop 里,不是单独生成动作,而是作为 tracking 与 recovery 之间的中间层。价值在于让机器人既能按命令走,又能在被打乱时恢复得更像人。
把世界模型和规划从“先预测后规划”改成交替式闭环生成,是这篇最核心的贡献。它更像 driving agent 在边想边看未来,而不是先脑补完整世界再开车。
本文提出一个面向 LLM/RAG 应用的部署就绪性评估框架,将自动化 benchmark、OpenTelemetry 可观测性与 CI 质量门禁整合为统一 API 合约,通过场景加权的 Pareto 就绪性分数将离线评估转化为可操作的发布决策工作流。
不改主生成器结构,而是在 latent 空间做几何一致性的奖励优化,是这篇最聪明的地方。它把“世界一致性”从昂贵的 RGB 解码里解耦出来,更像是给视频生成补了一层 geometry-aware RL。
这篇重新审视 OPD,不再把 teacher/student 匹配压缩成单 token 信号,而是改成 top-K local support matching 的截断 reverse-KL。对于长链 reasoning 和 agent 训练,稳定性提升比“多跑几步”更关键。
本文提出 Natural-Language Agent Harnesses(NLAHs):将 agent harness 的控制逻辑外化为可编辑的自然语言制品,并配以共享运行时 IHR 通过显式合约执行,在编码和计算机使用 benchmark 上验证了其操作可行性、模块消融效果和代码到自然语言迁移路径。
这篇把 self-distillation 在数学推理里“越蒸越短、越短越差”的反常现象拆开看,核心诊断是 epistemic verbalization 被抑制。对所有追求更短 CoT 的 post-training 工作都是很好的提醒。
本文提出 llvm-autofix,首个专为编译器缺陷修复设计的 agentic harness,包含编译器友好的 LLVM 工具集、可复现 bug 的 benchmark llvm-bench,以及精简 agent llvm-autofix-mini——揭示了前沿模型在编译器任务上比通用软件 bug 下降 60% 的分辨率,同时 mini agent 超越现有最优基线约 22%。
AutoHarness 将 harness 生成形式化为程序搜索问题,使用 Thompson sampling 引导的树搜索让 LLM 迭代精炼约束代码,在 145 个 TextArena 游戏中完全消除非法动作,使更小的 Gemini-2.5-Flash 超越 Gemini-2.5-Pro 和 GPT-5.2-High,推至极限时甚至可生成完整 code-as-policy,无需在决策时调用 LLM。