排他性自注意力(XSA)
XSA 将每个 token 的注意力输出从自身值向量方向上投影出去,在不增加参数的前提下强制实现纯上下文聚合。
这里单独收住近期在看的论文入口,按时间排开,适合快速进入原文、alphaXiv 讲解页,或者外部线程。
XSA 将每个 token 的注意力输出从自身值向量方向上投影出去,在不增加参数的前提下强制实现纯上下文聚合。
RLSD 将 RLVR 的可靠方向信号与自蒸馏的 token 级更新幅度结合起来,目标是在不引入特权教师泄漏的前提下实现更稳定的后训练。
SKILL0 用逐步撤回的技能脚手架训练智能体,把工具使用技能内化进模型权重,使推理阶段无需检索也能零样本运行。
TriAttention 从旋转前 Q/K 几何结构出发为 KV 重要性打分,在保持 AIME25 全注意力精度的同时大幅降低 KV 内存并提升吞吐量。
AutoHarness 让 Gemini-2.5-Flash 在环境反馈引导的树搜索中自动合成代码 harness,在 145 个 TextArena 游戏里消除非法动作,并让小模型超过更大的裸模型。
Composer 2 通过编码持续预训练加大规模强化学习,把 Kimi K2.5 专门化为真实软件工程 agent,并在 CursorBench、SWE-bench Multilingual 和 TerminalBench 上达到前沿水平。
PivotRL 只在专家轨迹中高信息量的 pivot 轮次上做带功能等价奖励的 GRPO,在 4 倍更少 rollout 下接近端到端 RL 的 agentic 泛化表现。
Medical AI Scientist 将医生-工程师协同推理、医学工具箱与伦理感知写作流程整合为自主研究系统,在 171 个临床案例和 19 个任务上显著优于通用 AI Scientist。
本文指出信息过丰富的自蒸馏条件会抑制不确定性表达,从而在数学推理中缩短响应却损害 OOD 准确率,并给出自蒸馏何时有效、何时失效的边界条件。
Meta-Harness 让 agentic proposer 读取全部候选代码、执行 trace 与分数,在不压缩反馈的前提下自动搜索 harness,并在 TerminalBench-2 等任务上超过多数人工设计基线。
NLAH 把 agent harness 从控制器代码外化为可执行的结构化自然语言规范,并由 Intelligent Harness Runtime 解释运行,使 harness 可以跨系统迁移、比较与消融。
AEC-Bench 是首个面向建筑、工程与施工领域的多模态 Agent 基准,196 个专家任务按三层范围分类;当前最优 Agent 在跨文档合规任务上仅达 23%,核心瓶颈是视觉空间理解与文档检索的协同融合。
以计算机体系结构为类比,提出多智能体 LLM 记忆的三层层次模型,指出最关键的空白是缺乏形式化的记忆一致性定义及缓存共享协议,为多智能体系统可靠性研究提供跨学科概念框架。
通过 NVFP4 量化与 FlashAttention2 将 Cosmos-Reason1-7B 部署为自动驾驶语义观察层,实现约 50× 推理加速;关键发现:NF4 量化在视频模式下导致召回率从 77% 骤降至 10.6%。
Token-Reweighting(ToR)通过熵识别推理 token、视觉敏感度识别感知 token,在 GRPO/DAPO 策略梯度中差异化加权,解决多模态 RLVR 感知-推理拉锯效应,在 5 个数学视觉推理基准上实现一致提升。
Doctorina MedBench 以多轮交互对话替代静态考试题评测医疗 AI,通过 D.O.T.S. 四维框架在 1000+ 临床案例上评测,显示 Agent 型系统在鉴别诊断和治疗准确率上大幅超越 GPT-5 零样本基线。
基于 350 个真实 GitHub PR 的代码审查基准,发现 8 个前沿模型最多只能检测 31% 的人工标注问题,且增加结构化上下文一致导致性能单调退化——注意力稀释是核心瓶颈。
仅用 315 篇标注摘要在 2 分钟内将 LFM2.5-1.2B 微调为系统综述筛选器,实现 91.18% 敏感度,跨温度设置预测完全一致,展示了小型 LLM 在循证医学文献筛选中的实用潜力。
选取历史成功率 30-70% 的中等难度任务子集,可减少 44-70% AI Agent 评测任务量同时保持排名稳定性(Spearman ρ≈0.94),关键洞察是分布漂移下排名比绝对分数稳健得多。
系统梳理 LLM Agent 工具使用从单次调用到多工具长周期编排的演进,提出涵盖规划、训练、安全、效率、能力完备性与基准设计的六维度分析框架。
DualCoT-VLA 在单次前向传播中并行运行视觉 3D 感知与语言逻辑规划两条隐式 CoT 流,推理延迟仅 58ms(比自回归 CoT 快 54×),在 LIBERO 上达到 98.8% 成功率并成功迁移至真实机器人。
MA-VLCM 以 LoRA 微调的 LLaVA-0.5B 替代多智能体强化学习中的集中式 Critic,结合图注意力网络处理智能体拓扑,实现强分布外泛化(Spearman ρ=0.93)且推理速度提升 3.45 倍。
100 名真实患者与 AMIE(Gemini 2.5)门诊前对话中实现零安全停止,90% 诊断准确率,患者 AI 态度显著改善,为对话诊断 AI 在真实临床环境中的可行性提供了迄今最强证据。
UVLM 是基于 Google Colab 的统一 VLM 推理框架,为 LLaVA-NeXT 与 Qwen2.5-VL 提供跨架构一致接口,并通过多数投票共识机制提升城市场景多模态基准测试的可重复性。
OpenDev 是一个开源终端编程 Agent,采用复合 AI 架构实现工作负载特化模型路由、双 Agent 规划/执行分离与自适应上下文压缩,将 Context Engineering 作为核心设计维度。
受控实验表明,经参考模型推理轨迹蒸馏训练的推理型 Judge 能防止策略模型奖励 Hacking,而非推理型 Judge 无法防止;关键发现:是蒸馏过程而非推理能力本身决定了防 Hacking 效果。