Self-Distilled RLVR（RLSD）

RLSD 将 RLVR 的可靠方向信号与自蒸馏的 token 级更新幅度结合起来，目标是在不引入特权教师泄漏的前提下实现更稳定的后训练。

rlarXivChenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan

arXiv alphaXiv

Self-Distilled RLVR（RLSD）

基本信息

字段	内容
标题	Self-Distilled RLVR
作者	Chenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan
发表状态	arXiv 预印本（v2，2026年4月8日修订），尚未经过同行评审
日期	2026年4月3日（修订于4月8日）
ArXiv ID	2604.03128
代码	暂未确认开源

问题与动机

本文解决什么问题？

LLM 后训练依赖两种各有对立缺陷的范式。本文的核心问题是：能否以有理论依据的方式将两者结合，使各自的优势弥补对方的短板，从而产生既方向可靠又幅度精准的训练信号？

现有方法为何不足？

在线自蒸馏（On-Policy Self-Distillation，OPSD）：

利用特权教师模型生成丰富的细粒度 token 级监督信号。
失效原因：信息泄漏 — 模型过拟合于教师的推理轨迹，而非学习独立推理；同时导致长期训练不稳定，因为学习信号与教师知识分布高度耦合。

基于可验证奖励的强化学习（RLVR）：

从环境反馈（如最终答案是否正确）中获取奖励信号。
失效原因：信号稀疏 — RLVR 只告诉模型更新的方向（正确/错误），却无法提供 token 级分辨率，无法指导每个部分对结果的贡献程度（即幅度）。

两种缺陷恰好互补：OPSD 具有密集的幅度信息但方向不可靠；RLVR 方向可靠但幅度稀疏。

这个问题为何重要？

高效稳定的 LLM 后训练直接决定了模型推理能力的上限。一种能同时避免信息泄漏和信号稀疏的原则性混合方法，将有望实质性地推进前沿模型训练水平。

技术方法

核心贡献

RLSD（RLVR with Self-Distillation）提出一种混合训练范式：以自蒸馏提供细粒度 token 级更新幅度信号，以 RLVR 的可验证环境反馈锚定更新方向——从而消除两种范式单独使用时各自的失效模式。

流程详解

策略采样： 学生模型（正在训练的策略）对提示词生成回复。
自蒸馏信号： 同一策略的教师版本（或先前的检查点）生成参考回复，计算学生与教师之间的 token 级策略差异，产生每个 token 的细粒度更新幅度信号。
RLVR 信号： 学生的回复通过可验证奖励（如答案正确性、格式合规性）进行评估，产生稀疏但可靠的更新方向信号——即该回复应被强化还是抑制。
联合更新： 最终的参数更新 = RLVR 方向 × 自蒸馏幅度，为每个 token 提供既有方向锚定又有比例缩放的校准更新。

真正的创新点

此前研究将 OPSD 和 RLVR 视为竞争范式。RLSD 识别出它们互补的信息论角色：RLVR 解决 OPSD 无法解决的方向问题，自蒸馏解决 RLVR 无法解决的幅度分辨率问题。核心洞见在于："自蒸馏"无需固定的外部教师——策略自身的先前状态即可提供蒸馏目标，从而避免了 OPSD 中特权信息泄漏的问题。

训练目标（概念形式）

$\mathcal{L}_{\text{RLSD}} = \mathcal{L}_{\text{RLVR}}(\text{方向}) \times w_{\text{SD}}(\text{来自 token 级策略差异的幅度})$

自蒸馏分量决定每个 token 的更新力度；RLVR 分量决定整体回复是否应被强化或抑制。

实验结果

指标	OPSD	纯 RLVR	RLSD	备注
收敛上限	受教师知识限制	中等	高于两者	`[paper]`
训练稳定性	长期不稳定	较稳定	最稳定	`[paper]`

可获取内容中尚无具体数据集名称和数值结果，该论文仍为进行中的工作（v2）。

批判性评估

优势：

将训练信号分解为方向（RLVR）和幅度（自蒸馏）的框架概念清晰、动机充分。
以策略自身的先前状态作为蒸馏目标，优雅地避免了单独维护教师模型的需要。
对 OPSD 为何导致信息泄漏的分析，是独立于所提方法之外的有价值理论贡献。

不足：

可获取内容中尚无具体实验数值——"更高收敛上限"的声明需要在标准基准（如 MATH、GSM8K、MMLU）上的定量验证。
该方法引入了自蒸馏幅度信号与 RLVR 方向信号之间的权重超参数，对该平衡的敏感性尚未描述。
从策略自身先前检查点进行"自蒸馏"与带有 KL 惩罚的标准 RLVR（如 PPO 的 KL 项）界限模糊，需要更清晰地与 PPO 式正则化区分，以强化新颖性声明。

综合评价

三句话总结： RLSD 将 RLVR 的可靠方向信号与自蒸馏的 token 级幅度精度结合，实现了比任一单独范式更高的收敛上限和训练稳定性。核心局限是具体的基准数值尚未公开确认。

创新分类： 方法进步（Method Advance） — 识别出训练信号的原则性分解，并提出具体的混合方案利用两个分量的互补性。

待解决的开放问题：

最优蒸馏目标（当前策略 vs. 先前检查点 vs. EMA）如何在不同训练阶段与稳定性交互？
当 RLVR 加入强 KL 惩罚（隐式提供部分幅度正则化）时，RLSD 相对于纯 RLVR 的优势是否依然显著？
在奖励非二元的任务（如部分得分）上，该方法表现如何？