Self-Distilled RLVR(RLSD)
基本信息
| 字段 | 内容 |
|---|---|
| 标题 | Self-Distilled RLVR |
| 作者 | Chenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan |
| 发表状态 | arXiv 预印本(v2,2026年4月8日修订),尚未经过同行评审 |
| 日期 | 2026年4月3日(修订于4月8日) |
| ArXiv ID | 2604.03128 |
| 代码 | 暂未确认开源 |
问题与动机
本文解决什么问题?
LLM 后训练依赖两种各有对立缺陷的范式。本文的核心问题是:能否以有理论依据的方式将两者结合,使各自的优势弥补对方的短板,从而产生既方向可靠又幅度精准的训练信号?
现有方法为何不足?
在线自蒸馏(On-Policy Self-Distillation,OPSD):
- 利用特权教师模型生成丰富的细粒度 token 级监督信号。
- 失效原因:信息泄漏 — 模型过拟合于教师的推理轨迹,而非学习独立推理;同时导致长期训练不稳定,因为学习信号与教师知识分布高度耦合。
基于可验证奖励的强化学习(RLVR):
- 从环境反馈(如最终答案是否正确)中获取奖励信号。
- 失效原因:信号稀疏 — RLVR 只告诉模型更新的方向(正确/错误),却无法提供 token 级分辨率,无法指导每个部分对结果的贡献程度(即幅度)。
两种缺陷恰好互补:OPSD 具有密集的幅度信息但方向不可靠;RLVR 方向可靠但幅度稀疏。
这个问题为何重要?
高效稳定的 LLM 后训练直接决定了模型推理能力的上限。一种能同时避免信息泄漏和信号稀疏的原则性混合方法,将有望实质性地推进前沿模型训练水平。
技术方法
核心贡献
RLSD(RLVR with Self-Distillation)提出一种混合训练范式:以自蒸馏提供细粒度 token 级更新幅度信号,以 RLVR 的可验证环境反馈锚定更新方向——从而消除两种范式单独使用时各自的失效模式。
流程详解
- 策略采样: 学生模型(正在训练的策略)对提示词生成回复。
- 自蒸馏信号: 同一策略的教师版本(或先前的检查点)生成参考回复,计算学生与教师之间的 token 级策略差异,产生每个 token 的细粒度更新幅度信号。
- RLVR 信号: 学生的回复通过可验证奖励(如答案正确性、格式合规性)进行评估,产生稀疏但可靠的更新方向信号——即该回复应被强化还是抑制。
- 联合更新: 最终的参数更新 = RLVR 方向 × 自蒸馏幅度,为每个 token 提供既有方向锚定又有比例缩放的校准更新。
真正的创新点
此前研究将 OPSD 和 RLVR 视为竞争范式。RLSD 识别出它们互补的信息论角色:RLVR 解决 OPSD 无法解决的方向问题,自蒸馏解决 RLVR 无法解决的幅度分辨率问题。核心洞见在于:"自蒸馏"无需固定的外部教师——策略自身的先前状态即可提供蒸馏目标,从而避免了 OPSD 中特权信息泄漏的问题。
训练目标(概念形式)
自蒸馏分量决定每个 token 的更新力度;RLVR 分量决定整体回复是否应被强化或抑制。
实验结果
| 指标 | OPSD | 纯 RLVR | RLSD | 备注 |
|---|---|---|---|---|
| 收敛上限 | 受教师知识限制 | 中等 | 高于两者 | [paper] |
| 训练稳定性 | 长期不稳定 | 较稳定 | 最稳定 | [paper] |
可获取内容中尚无具体数据集名称和数值结果,该论文仍为进行中的工作(v2)。
批判性评估
优势:
- 将训练信号分解为方向(RLVR)和幅度(自蒸馏)的框架概念清晰、动机充分。
- 以策略自身的先前状态作为蒸馏目标,优雅地避免了单独维护教师模型的需要。
- 对 OPSD 为何导致信息泄漏的分析,是独立于所提方法之外的有价值理论贡献。
不足:
- 可获取内容中尚无具体实验数值——"更高收敛上限"的声明需要在标准基准(如 MATH、GSM8K、MMLU)上的定量验证。
- 该方法引入了自蒸馏幅度信号与 RLVR 方向信号之间的权重超参数,对该平衡的敏感性尚未描述。
- 从策略自身先前检查点进行"自蒸馏"与带有 KL 惩罚的标准 RLVR(如 PPO 的 KL 项)界限模糊,需要更清晰地与 PPO 式正则化区分,以强化新颖性声明。
综合评价
三句话总结: RLSD 将 RLVR 的可靠方向信号与自蒸馏的 token 级幅度精度结合,实现了比任一单独范式更高的收敛上限和训练稳定性。核心局限是具体的基准数值尚未公开确认。
创新分类: 方法进步(Method Advance) — 识别出训练信号的原则性分解,并提出具体的混合方案利用两个分量的互补性。
待解决的开放问题:
- 最优蒸馏目标(当前策略 vs. 先前检查点 vs. EMA)如何在不同训练阶段与稳定性交互?
- 当 RLVR 加入强 KL 惩罚(隐式提供部分幅度正则化)时,RLSD 相对于纯 RLVR 的优势是否依然显著?
- 在奖励非二元的任务(如部分得分)上,该方法表现如何?