The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration

系统梳理 LLM Agent 工具使用从单次调用到多工具长周期编排的演进，提出涵盖规划、训练、安全、效率、能力完备性与基准设计的六维度分析框架。

agentarXivHaoyuan Xu, Chang Li, Xinyan Ma, Zihan Zhang, et al.

第 0 节 — 论文元数据

字段	内容
标题	The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration
作者与机构	Haoyuan Xu、Chang Li 等（哈尔滨工业大学）；Zihan Zhang（哈佛大学）
发表载体 / 状态	arXiv 预印本，2026 年 3 月 24 日（v1）
代码 / 数据可用性	综述论文，无独立代码库 [paper]
可重复性信号	综述类论文，不适用 [paper]

本文解决的具体问题是什么？ 如何系统梳理 LLM Agent 工具使用从单次调用到多工具长周期编排的研究演进，建立统一的概念框架与分类体系。

现有方法为何在此失效？ 现有综述聚焦于单次工具调用的函数选择与参数填充，忽视了多工具编排中的依赖建模、调度、失败恢复与状态一致性等系统级挑战。[paper]

为什么这个问题值得解决？ 随着 Agent 系统从玩具场景走向软件工程、企业工作流等复杂场景，多工具编排已成为核心能力瓶颈；缺乏统一框架阻碍了领域共识的形成。[paper]

核心贡献（一句话）: 提出六维度框架，将多工具 LLM Agent 研究系统化，涵盖推理时规划、训练范式、安全控制、效率优化、能力完备性与基准设计。

方法流程:

真正的新颖点: 将"多工具编排"与"单次工具调用"明确区分为不同研究问题；引入"状态污染"、"轨迹级审计"等系统级概念。[paper]

复杂度分析: 综述性论文，不涉及算法复杂度分析。[paper]

数据集	指标	先前 SOTA	本文结果	Δ
综述论文（无原创实验）	—	—	—	—

消融实验分析: 不适用。[paper]

统计严谨性: 综述论文，引用原始研究结果，无独立统计分析。[paper]

潜在混淆因素: 文献选择偏向可能影响框架完整性；部分领域（如医疗 Agent）覆盖较少。[inferred]

方法层面的隐患: 六维度框架的划分存在主观性，部分维度（如效率与安全）存在交叉重叠。[inferred]

实验层面的问题: 综述论文不适用实验批评，但对新兴基准（ToolHop、TRAJECT-Bench）的覆盖有限。[paper]

声明范围: 论文明确定位为综述，声明范围合理。[paper]

客观优点: 概念统一工作扎实；六维度框架为后续研究提供了系统化参考；对安全与效率权衡的分析尤为深入。[paper]

TL;DR（30 秒摘要）: 本文是第一篇将多工具 LLM Agent 编排作为独立研究问题加以系统化的综述，提出六维度分析框架，涵盖规划、训练、安全、效率、能力与评测，为领域提供重要的概念基础设施。

创新类型判断: 综述与框架建构（Survey & Framework）——对既有研究的系统整合与重新阐释。[paper]

部署成熟度: 不适用（综述论文）。[paper]

开放问题: 多工具编排的形式化验证方法；动态工具创建的安全边界定义；跨 Agent 状态一致性协议标准化。[inferred]

复现注意事项: 综述论文，无需复现。[paper]