Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

本文指出信息过丰富的自蒸馏条件会抑制不确定性表达，从而在数学推理中缩短响应却损害 OOD 准确率，并给出自蒸馏何时有效、何时失效的边界条件。

reasoningarXivJeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, et al.

论文分析：自蒸馏为何（有时）会损害 LLM 的推理能力？

第 0 节 — 论文元数据

字段	内容
标题	Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?
作者与机构	Jeonghye Kim、Minbeom Kim、Sangmook Lee、Dohyung Kim、Jiwon Jeon（KAIST / 首尔国立大学）；Xufang Luo、Dongsheng Li、Yuqing Yang（微软研究院）
发表载体 / 状态	arXiv 预印本（2026 年 3 月 25 日提交），尚未同行评审
代码 / 数据可用性	已开源（GitHub，提交时 36 star）；URL 未确认
可重复性信号	模型已命名（DeepSeek-R1-Distill-Qwen-7B、Qwen3-8B、OLMo-3-7B-Instruct）；数据集已指定（DAPO-Math-17k）；评估基准已指定（AIME24/25、AMC23、MATH500）；训练细节部分给出；未报告随机种子

第 1 节 — 研究问题与动机

本文解决的具体问题是什么？ 自蒸馏——同一模型同时作为教师（以正确解答为条件）和学生（无条件）的后训练方法，通过最小化下一个 token 分布的 KL 散度实现知识迁移——在数学推理任务中持续缩短响应长度，却悖论性地损害了数学推理性能，尽管训练数据仅包含正确轨迹。本文寻求对这一失效模式的机制解释，并识别其边界条件。

形式化表述：给定模型 $\pi_0$ 、教师条件 $c \in \{\emptyset, s, s\setminus \text{think}, \tilde{y}\}$ ，以及学生目标 $L_{KL}(\pi_\theta \,\|\, \pi_{\text{teacher}}(\cdot \mid c))$ ，为何更丰富的 $c$ 会损害分布外（OOD）推理准确率，即使教师输出具有高答案正确率？

现有方法为何在此失效？ 标准自蒸馏通过匹配学生与教师分布来工作。当教师条件丰富（完整解答 s）时，教师产生自信、简洁、近乎零不确定性表达的输出。学生在训练过程中学会匹配这些分布，从而抑制"认知语言化"（epistemic verbalization）——维持多假设路径的 token，如"wait"、"hmm"、"let me reconsider" [paper]。先前在化学和编码领域的蒸馏工作未遇到此失效，因为这些领域任务类型重复，不需要认知表达；而数学推理需要跨组合多样问题类型的 OOD 泛化，在这里维持不确定性至关重要 [paper, inferred]。

为什么这个问题值得解决？ 自蒸馏作为一种高效后训练技术被广泛应用，因为它避免了外部教师模型的成本。如果它系统性地损害数学推理——前沿模型上最广泛基准测试的能力——那么将其应用于具备数学能力的模型的实践者面临灾难性性能损失的风险（论文中记录的 AIME24 最高下降 40 pp [paper]）。本文的发现——仅正确轨迹不足以支持鲁棒推理——挑战了行为克隆的基本假设。

第 2 节 — 技术方案

核心贡献（一句话）： 本文识别"认知语言化抑制"（epistemic verbalization suppression）为信息丰富的自蒸馏条件损害 OOD 数学推理的机制，并证明该抑制由两个因素控制——教师信息丰富度和任务多样性——从而为自蒸馏何时有效、何时失效提供了有原则的解释。

方法流程（分析/实证，非新训练方法）：

步骤 1 — 受控条件实验（第 3 节）：

评估四种条件：c = ∅、c = s（完整解答）、c = s\think（不含思考过程的解答）、c = ỹ（重新生成的响应）
每种条件：从 DeepSeek-R1-Distill-Qwen-7B 生成 100 个教师输出；测量答案分数、响应长度、认知 token 计数
认知语言化操作化为特定 token（"wait"、"hmm"、"let me reconsider"）的频率

步骤 2 — SFT 消融（第 4 节）：

构建两个 800 样本数据集： $\mathcal{D}_{ug}$ （无条件， 12k token/响应，高认知标记）和 $\mathcal{D}_{sg}$ （解答引导， 2k token/响应，认知标记被抑制）
分别微调；在 AIME24/25、AMC23、MATH500 上评估

步骤 3 — 在线自蒸馏（SDPO）实验（第 5 节）：

在三个模型上比较 GRPO 与 SDPO：DeepSeek-R1-Distill-Qwen-7B、Qwen3-8B（思考模式开/关）、OLMo-3-7B-Instruct
消融 EMA 率（0.0 vs. 0.05）和 top-k（100 vs. 256）

步骤 4 — 任务覆盖分析（第 6 节）：

在三个具有不同 OOD/任务类型结构的领域中比较自蒸馏：ScienceQ&A（化学，90% 重叠）、LiveCodeBench v6（编程，100% 重叠）、DAPO-Math-17k（数学，非重叠 OOD）
变化数据集大小 $|\mathcal{D}| \in \{1, 8, 64, 128, 512\}$ 以研究覆盖度效应

真正的新颖点： 本文的核心概念贡献是命名并隔离"认知语言化"作为机制变量。先前工作观察到自蒸馏的长度缩减，但将其归因于效率提升；本文证明长度缩减是认知抑制的症状，而这种抑制专门损害 OOD 性能。两因素模型（信息丰富度 × 任务多样性）是新的 [paper]。

复杂度分析：

训练：与标准 GRPO/SDPO 相同 [inferred]
无额外推理成本 [inferred]
分析框架是贡献所在；未提出新训练算法

第 3 节 — 实验验证

主要结果表 — SFT 消融（第 4 节，Table 2）：

基准	基础模型	SFT on $\mathcal{D}_{ug}$ （无条件）	SFT on $\mathcal{D}_{sg}$ （解答引导）	Δ（引导 vs. 基础）
AIME24	54.79% [paper]	51.04% [paper]	20.21% [paper]	−34.58
AIME25	37.92% [paper]	40.00% [paper]	12.71% [paper]	−25.21
AMC23	89.06% [paper]	87.66% [paper]	57.03% [paper]	−32.03
MATH500	92.19% [paper]	90.93% [paper]	65.52% [paper]	−26.67

主要结果表 — SDPO vs. GRPO（第 5 节，OOD 评估）：

模型	基准	基础模型	GRPO	SDPO	Δ（SDPO vs. GRPO）
DeepSeek-R1-Distill-Qwen-7B	AIME24	54.7% [paper]	56.0% [paper]	15% [paper]	−41
DeepSeek-R1-Distill-Qwen-7B	AMC23	89.3% [paper]	91.1% [paper]	75% [paper]	−16
Qwen3-8B（思考开）	AIME24	—	稳定 [paper]	持续下降 [paper]	显著 [paper]

消融实验分析： 关键消融（Table 2）：仅在正确的解答引导轨迹（ $\mathcal{D}_{sg}$ ）上训练导致灾难性退化，尽管训练错误率为 0%。这直接将认知抑制隔离为原因——而非答案不正确。固定教师（EMA=0.0）通过避免反馈回路放大，持续优于动态教师（EMA=0.05）[paper]。top-k 变化（100 vs. 256）无显著影响 [paper]。

统计严谨性：

任何结果均无置信区间或标准差 [paper]。
未报告多个随机种子 [paper]。
第 3 节受控实验使用 100 个问题——小但明确说明。
SDPO 曲线以训练动态图而非点估计形式呈现；跨种子的方差未知。

潜在混淆因素：

受控条件实验（第 3 节）使用 100 个经精心挑选的问题。如果这些问题不代表 AIME/AMC 分布，认知 token 计数相关性可能无法泛化 [inferred]。
"认知语言化"通过 token 频率测量，未与对真正不确定性表达的人工标注进行验证 [inferred]。
SDPO 训练使用 DAPO-Math-17k；GRPO 基线假设使用相同数据。如果两者超参数（学习率、批大小）调优方式不同，比较则不对等 [paper 未提供超参数匹配细节]。

第 4 节 — 批判性评审

认知语言化的操作化问题 [inferred, 中等] "认知语言化"被测量为特定 token（"wait"、"hmm"、"let me reconsider"）的频率。这是代理指标。论文未验证这些 token 是否对应功能上不同的推理行为，而非习得的语体模式。模型可能通过不同的语言模式抑制这些 token，同时保持等效的假设分支。

SDPO 退化可能反映超参数敏感性 [inferred, 中等] 论文报告 SDPO 在多个模型上均劣于 GRPO，但未展示 SDPO 的超参数扫描。自蒸馏目标可能需要与 GRPO 不同的学习率或 KL 权重。"退化"可能部分反映从 GRPO 到 SDPO 的次优超参数迁移。

第 3 节样本量较小 [paper-可证实, 轻微] 受控条件实验使用 100 个问题——对于方向性发现足够，但对于精确效应量估计不足。认知 token 计数（无条件 182.5 vs. 解答引导 8.8）令人信服，但缺乏方差报告。

"认知语言化抑制"作为机制的声明范围 [inferred, 中等] 论文在多个条件和模型间建立了认知 token 抑制与 OOD 退化之间的相关性，证据有力。然而，将"抑制"作为机制意味着模型在需要时无法表达不确定性，而非仅选择不表达。这一区别对干预措施有重要影响：若为偏好问题，提示可能恢复它；若为能力损失，则需要重新训练。

客观优点：

核心实证发现——仅正确轨迹可能灾难性地损害 OOD 性能——令人惊讶、清晰展示且实践上重要。这挑战了行为克隆的基本假设。
两因素解释（信息丰富度 × 任务多样性）优雅地统一了自蒸馏何时有效（化学、编程）与失效（多样化数学）的情况，并在第 6 节的跨领域分析中得到验证。
固定 vs. 动态教师消融（Figure 9）是对实践者而言干净且可操作的发现。
三个不同模型家族（DeepSeek、Qwen3、OLMo）增强了泛化性声明的可信度。

第 5 节 — 综合总结

TL;DR（30 秒摘要）： 自蒸馏通过抑制认知语言化 token 损害数学推理 OOD 性能——不是因为训练了错误输出，而是因为丰富的教师条件产生了自信的、无不确定性的轨迹，学生学会了模仿这些轨迹。在三个模型家族上记录了 AIME24 最高 40 pp 的性能下降；该失效特定于高多样性 OOD 任务，在重复性领域不会出现。主要开放问题是"认知语言化"是否是底层推理机制的有效代理指标。

创新类型判断： 方法突破 —— 本文为已知实证现象（自蒸馏有时损害数学）在既有自蒸馏框架内提供了机制解释，而非提出新训练方法。

部署成熟度： 直接可操作：（1）对具备数学能力的模型避免解答条件的自蒸馏，除非任务分布已知为窄且重复；（2）若应用 SDPO，使用固定教师（EMA=0.0）。本文发现应指导任何将自蒸馏应用于推理模型的实践者。

开放问题：

认知语言化对 OOD 推理是否在功能上是必要的，还是与某些底层机制（如探索深度、假设树分支）相关，而后者才是真正的驱动因素？探测实验可以区分这两种情况。
性能损失能否通过后续微调（重新引入认知表达）来恢复，还是这是一种结构性能力退化？
同样的退化是否在跨模型蒸馏（教师 ≠ 学生）中也会出现，还是特定于自蒸馏独特的反馈回路？

复现注意事项：

SDPO 和 GRPO 训练需要仔细的超参数匹配；论文未完整说明两种方法的学习率是否相同。
认知 token 计数需要预定义的不确定性标记词汇表；摘要页面中未提供确切列表。
DAPO-Math-17k 数据集的可用性需验证；部分先前数学数据集有许可证限制。
AIME24/25 上的性能由于问题数量少，跨运行变化较大；需要多个种子来确认报告的退化幅度。