2026-05-31
语言
主题
Everyday Paper
2026-03-24

The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration

系统梳理 LLM Agent 工具使用从单次调用到多工具长周期编排的演进,提出涵盖规划、训练、安全、效率、能力完备性与基准设计的六维度分析框架。

agentarXivHaoyuan Xu, Chang Li, Xinyan Ma, Zihan Zhang, et al.
Back to Everyday Paper

第 0 节 — 论文元数据

字段内容
标题The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration
作者与机构Haoyuan Xu、Chang Li 等(哈尔滨工业大学);Zihan Zhang(哈佛大学)
发表载体 / 状态arXiv 预印本,2026 年 3 月 24 日(v1)
代码 / 数据可用性综述论文,无独立代码库 [paper]
可重复性信号综述类论文,不适用 [paper]

第 1 节 — 研究问题与动机

本文解决的具体问题是什么? 如何系统梳理 LLM Agent 工具使用从单次调用到多工具长周期编排的研究演进,建立统一的概念框架与分类体系。

现有方法为何在此失效? 现有综述聚焦于单次工具调用的函数选择与参数填充,忽视了多工具编排中的依赖建模、调度、失败恢复与状态一致性等系统级挑战。[paper]

为什么这个问题值得解决? 随着 Agent 系统从玩具场景走向软件工程、企业工作流等复杂场景,多工具编排已成为核心能力瓶颈;缺乏统一框架阻碍了领域共识的形成。[paper]

第 2 节 — 技术方案

核心贡献(一句话): 提出六维度框架,将多工具 LLM Agent 研究系统化,涵盖推理时规划、训练范式、安全控制、效率优化、能力完备性与基准设计。

方法流程:

  • 推理时规划:拓扑感知规划(图执行、层次委托)→ 状态空间搜索(MCTS)→ 双系统架构 + 持久记忆
  • 训练范式:无训练方法 → 合成数据生成(ToolLLM、APIGen) → SFT → RL(GRPO/DAPO)
  • 安全架构:并行执行风险(事务语义 SagaLLM)→ 长周期漏洞(记忆注入防护)
  • 效率策略:并行执行(LLMCompiler)→ 动态工具检索 → 智能缓存
  • 能力完备性:边界感知 → 自主工具扩展(代码生成) → 开放环境适应(经验记忆)

真正的新颖点: 将"多工具编排"与"单次工具调用"明确区分为不同研究问题;引入"状态污染"、"轨迹级审计"等系统级概念。[paper]

复杂度分析: 综述性论文,不涉及算法复杂度分析。[paper]

第 3 节 — 实验验证

数据集指标先前 SOTA本文结果Δ
综述论文(无原创实验)

消融实验分析: 不适用。[paper]

统计严谨性: 综述论文,引用原始研究结果,无独立统计分析。[paper]

潜在混淆因素: 文献选择偏向可能影响框架完整性;部分领域(如医疗 Agent)覆盖较少。[inferred]

第 4 节 — 批判性评审

方法层面的隐患: 六维度框架的划分存在主观性,部分维度(如效率与安全)存在交叉重叠。[inferred]

实验层面的问题: 综述论文不适用实验批评,但对新兴基准(ToolHop、TRAJECT-Bench)的覆盖有限。[paper]

声明范围: 论文明确定位为综述,声明范围合理。[paper]

客观优点: 概念统一工作扎实;六维度框架为后续研究提供了系统化参考;对安全与效率权衡的分析尤为深入。[paper]

第 5 节 — 综合总结

TL;DR(30 秒摘要): 本文是第一篇将多工具 LLM Agent 编排作为独立研究问题加以系统化的综述,提出六维度分析框架,涵盖规划、训练、安全、效率、能力与评测,为领域提供重要的概念基础设施。

创新类型判断: 综述与框架建构(Survey & Framework)——对既有研究的系统整合与重新阐释。[paper]

部署成熟度: 不适用(综述论文)。[paper]

开放问题: 多工具编排的形式化验证方法;动态工具创建的安全边界定义;跨 Agent 状态一致性协议标准化。[inferred]

复现注意事项: 综述论文,无需复现。[paper]