排他性自注意力（XSA）

XSA 将每个 token 的注意力输出从自身值向量方向上投影出去，在不增加参数的前提下强制实现纯上下文聚合。

attentionarXivShuangfei Zhai

排他性自注意力（Exclusive Self Attention，XSA）

基本信息

字段	内容
标题	Exclusive Self Attention
作者	Shuangfei Zhai
发表状态	arXiv 预印本，尚未经过同行评审
日期	2026年3月10日
ArXiv ID	2603.09078
代码	可获取（arXiv 上提供 PDF、HTML、TeX 源码；CC BY 4.0）

问题与动机

本文解决什么问题？

标准自注意力允许每个 token 在计算输出表示时融入自身的值向量信息。这意味着模型可以"走捷径"，直接依赖自身位置信息，而非充分利用来自周围 token 的上下文信号。XSA 提出：如果强制注意力只捕获与 token 自身值向量正交的信息——严格排除自指内容——模型是否会学习到更丰富的上下文表示？

从形式上看，该修改将 token $i$ 的注意力输出约束在与 $v_i$ （该 token 自身的值向量）正交的子空间内，从 token 可聚合的信息中去除自位置分量。

现有方法为何不足？

标准自注意力本身并无错误——它工作良好。但它允许一种退化解：token 可能过度依赖对自身位置的自注意力，将自身值向量用作输出的主导分量。这可能降低注意力头发展多样化、上下文敏感表示的压力，尤其在序列较长、上下文建模最为关键的情况下。

这个问题为何重要？

注意力是 Transformer 模型的基本构建块。一种极简、广泛适用的修改——在不增加参数和计算量的情况下——若能在不同规模和序列长度上一致提升语言建模困惑度，将立即具有实用价值且易于被采纳。XSA 随序列长度增大而收益增加的特性，使其在模型日益处理长上下文的趋势下尤为相关。

技术方法

核心贡献

XSA 将每个 token 的注意力输出约束为只捕获与自身值向量正交的信息，从而排除自位置信息，迫使注意力头完全聚焦于来自其他位置 token 的上下文信号。

机制详解

在标准自注意力中，token $i$ 的输出为：

$o_i = \sum_j \alpha_{ij} v_j$

其中 $\alpha_{ij}$ 为注意力权重， $v_j$ 为值向量。该求和包含 $j = i$ 项，允许 token 直接融入自身值向量。

XSA 对此进行修改，将聚合后的值向量沿 token 自身值向量方向的分量投影去除：

$o_i^{\text{XSA}} = o_i - \frac{o_i \cdot v_i}{\|v_i\|^2} v_i$

这一操作减去了输出中沿 $v_i$ 方向的分量，确保输出与 token 自身值向量正交。token 不再能从注意力输出中提取自身位置信息——它必须完全依赖来自其他位置的上下文。

真正的创新点

标准自注意力隐式允许自信息的循环利用。XSA 引入显式正交约束，关闭了这条通道。该修改是在注意力输出计算中添加的一次向量投影运算——无需额外参数、无需架构变动、计算开销极小。核心概念转变在于：将自注意力视为纯粹的上下文聚合操作，而非自信息与上下文信息的混合操作。

复杂度

额外计算：每个 token 每个注意力头一次向量投影——开销可忽略。[inferred]
无额外参数。[inferred]
注意力权重计算不变——仅修改输出聚合步骤。

实验结果

模型规模	序列长度	标准注意力	XSA	备注
最高 $2.7\text{B}$ 参数	多种	基线	一致提升	`[paper]`
更大序列	更长	提升较小	提升更大	`[paper]`

在所有测试模型规模下均一致提升。[paper]
性能提升随序列长度增加而显著增大——说明在上下文建模更重要的场景下，收益更为突出。[paper]
可获取内容中未提供具体困惑度数值和数据集名称。

批判性评估

优势：

极致简洁：一次投影运算，零新参数，可直接替换标准自注意力。
收益随序列长度增大的缩放行为是强有力的信号——说明该机制确实解决了在长上下文设置中更为突出的真实局限。
单作者工作，假设清晰可检验——是聚焦、极简研究的典范。
正交约束具有清晰的几何解释，使该方法易于理解和推理。

不足：

token 过度依赖自信息的假设虽合理，但论文若能提供直接证据（如测量修改前后的自注意力权重 $\alpha_{ii}$ ，或展示哪些注意力头受影响最大的消融实验），说服力将更强。
可获取内容中无具体基准数值和数据集名称，难以评估收益的量级。
该方法在语言建模上进行评估；在其他模态（视觉、多模态）或任务（分类、检索）上的适用性尚未确认。
不清楚 XSA 是否与其他注意力改进（如分组查询注意力、FlashAttention、滑动窗口）兼容，或是否可以直接结合。

综合评价

三句话总结： XSA 对自注意力进行一行修改，将每个 token 的输出约束为与自身值向量正交，强制实现纯粹的上下文聚合。在最高 $2.7\text{B}$ 参数的模型规模上一致提升语言建模效果，且收益随序列长度增大而增大。主要局限是公开可获取的定量细节有限。

创新分类： 方法进步（Method Advance） — 对核心注意力操作进行极简、有原则的修改，具有清晰的几何动机和一致的实验收益。

部署准备度： 高。零新参数、极小计算开销、可直接替换现有实现。主要障碍是验证与优化注意力内核（如 FlashAttention）的兼容性，以及确认投影步骤可以高效融合。

待解决的开放问题：

XSA 在下游任务（推理、代码、长文档问答）上的收益是否与困惑度提升成正比，还是两者会出现分化？
XSA 如何与已经抑制自注意力的位置编码（如 ALiBi、具有强距离衰减的 RoPE）交互？
提升是否集中于特定注意力头（如早期层 vs. 晚期层），选择性地将 XSA 应用于部分注意力头是否优于全局应用？

复现注意事项：

当 $\|v_i\|$ 较小时，投影步骤需保证数值稳定性——注意分母接近零的情况。
结果可能取决于投影操作是在注意力块中的输出投影矩阵之前还是之后应用。