SKILL0:用于技能内化的情境式主动强化学习
基本信息
| 字段 | 内容 |
|---|---|
| 标题 | SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization |
| 作者 | Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, Chengcheng Han, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen |
| 发表状态 | arXiv 预印本,尚未经过同行评审 |
| 日期 | 2026年4月2日 |
| ArXiv ID | 2604.02268 |
| 代码 | 已在 GitHub 开源(SkillZero 仓库) |
问题与动机
本文解决什么问题?
当前 LLM 智能体在使用外部技能库时,需要在每一步推理时从中检索相关技能。本文的目标是通过训练让智能体将技能直接内化到模型参数中,从而在推理阶段实现完全的零样本自主行为,无需任何检索操作。
现有方法为何不足?
检索增强式技能使用存在三个结构性缺陷:
- 检索噪声 — 检索到错误或不完全相关的技能会污染智能体的上下文。
- Token 开销 — 技能文档在每一步都会扩展上下文窗口,增加延迟和成本。
- 无知识获取 — 模型从未真正"学会"该技能,每次只是重新阅读它。能力依赖于检索脚手架的持续存在。
这个问题为何重要?
需要推理时外部检索的智能体无法在对延迟敏感、资源受限或离线环境中可靠部署。真正的技能内化是自主智能体的必要前提。
技术方法
核心贡献
SKILL0 提出一种训练时课程学习策略:从提供完整技能上下文开始,逐步撤回技能支撑,直至零支撑,使智能体将工具调用和多轮任务完成能力直接内化到模型权重中,最终实现零样本部署,无需技能检索。
流程详解
- 技能表示: 技能被分类整理,并与交互历史一同渲染为紧凑的视觉上下文,每步上下文保持在 tokens 以内。
- 课程设计: 训练初期,智能体可获得完整技能上下文(最大支撑)。动态课程评估技能的有效性,并应用线性衰减预算,在训练过程中逐步撤回技能信息。
- 强化学习训练: 智能体通过情境式主动强化学习进行训练,奖励信号来源于多轮交互中的任务完成情况。
- 推理部署: 部署时智能体完全零样本运行——无技能检索、无外部库、无扩展上下文。
真正的创新点
此前技能增强智能体将技能视为推理时的文档。SKILL0 将技能提供视为待撤除的训练脚手架,借鉴了教育心理学中的脚手架理论。其核心颠覆假设在于:技能上下文不必在推理时存在。
复杂度
- 推理阶段上下文:每步 < tokens(相比检索增强方法可能达到数千 tokens)
实验结果
| 数据集 | 指标 | 先前最优 | SKILL0 | 提升 |
|---|---|---|---|---|
| ALFWorld | 任务成功率 | 基线 | SKILL0 | +9.7% |
| SearchQA | 准确率 | 基线 | SKILL0 | +6.6% |
- 代码和模型已在 GitHub(SkillZero)开源。
批判性评估
优势:
- 课程设计有理论依据,同时受认知科学(脚手架理论)和强化学习理论支撑。
- 推理阶段每步 < tokens 是切实可行的效率目标。
- 在具身任务(ALFWorld)和问答(SearchQA)两类基准上均有提升,具有一定泛化性。
不足:
- 仅在两个基准上评估,更广泛的智能体任务评估将更有说服力。
- 对于高度组合性或需要训练数据中未出现的推理链的技能,内化效果尚不清晰。
- 线性衰减预算是一个关键的设计选择,可能需要仔细调参,现有内容未见敏感性分析。
综合评价
三句话总结: SKILL0 通过逐步撤回技能上下文的课程学习,训练 LLM 智能体将技能内化到模型权重中。在 ALFWorld 提升 +9.7%,在 SearchQA 提升 +6.6%,推理时每步仅需不到 tokens 且完全零样本运行。主要局限是基准多样性不足。
创新分类: 方法进步(Method Advance) — 在成熟的"智能体强化学习"框架内提出新颖训练课程,实现了质上不同的推理范式。
待解决的开放问题:
- 技能内化与持续学习如何兼容——添加新技能是否会导致灾难性遗忘?
- 该方法能否扩展到需要在紧凑视觉上下文中无法表达的长推理链的技能?
- 每项技能可靠内化所需的最低训练数据量是多少?