Everyday Paper

每天都能直接打开的论文入口。

这里单独收住近期在看的论文入口，按时间排开，适合快速进入原文、alphaXiv 讲解页，或者外部线程。

Paper Queue

Recent 26

01arXiv

排他性自注意力（XSA）

XSA 将每个 token 的注意力输出从自身值向量方向上投影出去，在不增加参数的前提下强制实现纯上下文聚合。

2026-04-09attention

Open summary arXiv alphaXiv

02arXiv

Self-Distilled RLVR（RLSD）

RLSD 将 RLVR 的可靠方向信号与自蒸馏的 token 级更新幅度结合起来，目标是在不引入特权教师泄漏的前提下实现更稳定的后训练。

2026-04-09rl

Open summary arXiv alphaXiv

03arXiv

SKILL0：用于技能内化的情境式主动强化学习

SKILL0 用逐步撤回的技能脚手架训练智能体，把工具使用技能内化进模型权重，使推理阶段无需检索也能零样本运行。

2026-04-09agent

Open summary arXiv alphaXiv

04arXiv

TriAttention：基于三角函数 KV 压缩的高效长推理

TriAttention 从旋转前 Q/K 几何结构出发为 KV 重要性打分，在保持 AIME25 全注意力精度的同时大幅降低 KV 内存并提升吞吐量。

2026-04-09attention

Open summary arXiv alphaXiv

05arXiv

AutoHarness: Improving LLM Agents by Automatically Synthesizing a Code Harness

AutoHarness 让 Gemini-2.5-Flash 在环境反馈引导的树搜索中自动合成代码 harness，在 145 个 TextArena 游戏里消除非法动作，并让小模型超过更大的裸模型。

2026-04-03harness

Open summary arXiv alphaXiv

06arXiv

Composer 2 Technical Report

Composer 2 通过编码持续预训练加大规模强化学习，把 Kimi K2.5 专门化为真实软件工程 agent，并在 CursorBench、SWE-bench Multilingual 和 TerminalBench 上达到前沿水平。

2026-04-02agent

Open summary arXiv alphaXiv

07arXiv

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

PivotRL 只在专家轨迹中高信息量的 pivot 轮次上做带功能等价奖励的 GRPO，在 4 倍更少 rollout 下接近端到端 RL 的 agentic 泛化表现。

2026-04-02rl

Open summary arXiv alphaXiv

08arXiv

Towards a Medical AI Scientist

Medical AI Scientist 将医生-工程师协同推理、医学工具箱与伦理感知写作流程整合为自主研究系统，在 171 个临床案例和 19 个任务上显著优于通用 AI Scientist。

2026-04-02ai-in-med

Open summary arXiv alphaXiv

09arXiv

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

本文指出信息过丰富的自蒸馏条件会抑制不确定性表达，从而在数学推理中缩短响应却损害 OOD 准确率，并给出自蒸馏何时有效、何时失效的边界条件。

2026-04-02reasoning

Open summary arXiv alphaXiv

10arXiv

Meta-Harness: End-to-End Optimization of Model Harnesses

Meta-Harness 让 agentic proposer 读取全部候选代码、执行 trace 与分数，在不压缩反馈的前提下自动搜索 harness，并在 TerminalBench-2 等任务上超过多数人工设计基线。

2026-04-01harness

Open summary arXiv alphaXiv

11arXiv

Natural-Language Agent Harnesses

NLAH 把 agent harness 从控制器代码外化为可执行的结构化自然语言规范，并由 Intelligent Harness Runtime 解释运行，使 harness 可以跨系统迁移、比较与消融。

2026-04-01harness

Open summary arXiv alphaXiv

12arXiv

AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction

AEC-Bench 是首个面向建筑、工程与施工领域的多模态 Agent 基准，196 个专家任务按三层范围分类；当前最优 Agent 在跨文档合规任务上仅达 23%，核心瓶颈是视觉空间理解与文档检索的协同融合。

2026-03-31agent

Open summary arXiv alphaXiv

13arXiv

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

以计算机体系结构为类比，提出多智能体 LLM 记忆的三层层次模型，指出最关键的空白是缺乏形式化的记忆一致性定义及缓存共享协议，为多智能体系统可靠性研究提供跨学科概念框架。

2026-03-30agent

Open summary arXiv alphaXiv

14arXiv

A Semantic Observer Layer for Autonomous Vehicles: Pre-Deployment Feasibility Study of VLMs for Low-Latency Anomaly Detection

通过 NVFP4 量化与 FlashAttention2 将 Cosmos-Reason1-7B 部署为自动驾驶语义观察层，实现约 50× 推理加速；关键发现：NF4 量化在视频模式下导致召回率从 77% 骤降至 10.6%。

2026-03-30vlm

Open summary arXiv alphaXiv

15arXiv

Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Token-Reweighting（ToR）通过熵识别推理 token、视觉敏感度识别感知 token，在 GRPO/DAPO 策略梯度中差异化加权，解决多模态 RLVR 感知-推理拉锯效应，在 5 个数学视觉推理基准上实现一致提升。

2026-03-26rl

Open summary arXiv alphaXiv

16arXiv

Doctorina MedBench: End-to-End Evaluation of Agent-Based Medical AI

Doctorina MedBench 以多轮交互对话替代静态考试题评测医疗 AI，通过 D.O.T.S. 四维框架在 1000+ 临床案例上评测，显示 Agent 型系统在鉴别诊断和治疗准确率上大幅超越 GPT-5 零样本基线。

2026-03-26ai-in-med

Open summary arXiv alphaXiv

17arXiv

SWE-PRBench: Benchmarking AI Code Review Quality Against Pull Request Feedback

基于 350 个真实 GitHub PR 的代码审查基准，发现 8 个前沿模型最多只能检测 31% 的人工标注问题，且增加结构化上下文一致导致性能单调退化——注意力稀释是核心瓶颈。

2026-03-26agent

Open summary arXiv alphaXiv

18arXiv

Fine-Tuning A Large Language Model for Systematic Review Screening

仅用 315 篇标注摘要在 2 分钟内将 LFM2.5-1.2B 微调为系统综述筛选器，实现 91.18% 敏感度，跨温度设置预测完全一致，展示了小型 LLM 在循证医学文献筛选中的实用潜力。

2026-03-25ai-for-health

Open summary arXiv alphaXiv

19arXiv

Efficient Benchmarking of AI Agents

选取历史成功率 30-70% 的中等难度任务子集，可减少 44-70% AI Agent 评测任务量同时保持排名稳定性（Spearman ρ≈0.94），关键洞察是分布漂移下排名比绝对分数稳健得多。

2026-03-24agent

Open summary arXiv alphaXiv

20arXiv

The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration

系统梳理 LLM Agent 工具使用从单次调用到多工具长周期编排的演进，提出涵盖规划、训练、安全、效率、能力完备性与基准设计的六维度分析框架。

2026-03-24agent

Open summary arXiv alphaXiv

21arXiv

DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models

DualCoT-VLA 在单次前向传播中并行运行视觉 3D 感知与语言逻辑规划两条隐式 CoT 流，推理延迟仅 58ms（比自回归 CoT 快 54×），在 LIBERO 上达到 98.8% 成功率并成功迁移至真实机器人。

2026-03-23vlm

Open summary arXiv alphaXiv

22arXiv

MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings

MA-VLCM 以 LoRA 微调的 LLaVA-0.5B 替代多智能体强化学习中的集中式 Critic，结合图注意力网络处理智能体拓扑，实现强分布外泛化（Spearman ρ=0.93）且推理速度提升 3.45 倍。

2026-03-16vlm

Open summary arXiv alphaXiv

23arXiv

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

100 名真实患者与 AMIE（Gemini 2.5）门诊前对话中实现零安全停止，90% 诊断准确率，患者 AI 态度显著改善，为对话诊断 AI 在真实临床环境中的可行性提供了迄今最强证据。

2026-03-15ai-in-med

Open summary arXiv alphaXiv

24arXiv

UVLM: A Universal Vision-Language Model Loader for Reproducible Multimodal Benchmarking

UVLM 是基于 Google Colab 的统一 VLM 推理框架，为 LLaVA-NeXT 与 Qwen2.5-VL 提供跨架构一致接口，并通过多数投票共识机制提升城市场景多模态基准测试的可重复性。

2026-03-14vlm

Open summary arXiv alphaXiv

25arXiv

Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

OpenDev 是一个开源终端编程 Agent，采用复合 AI 架构实现工作负载特化模型路由、双 Agent 规划/执行分离与自适应上下文压缩，将 Context Engineering 作为核心设计维度。

2026-03-13harness

Open summary arXiv alphaXiv

26arXiv

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

受控实验表明，经参考模型推理轨迹蒸馏训练的推理型 Judge 能防止策略模型奖励 Hacking，而非推理型 Judge 无法防止；关键发现：是蒸馏过程而非推理能力本身决定了防 Hacking 效果。

2026-03-12llm

Open summary arXiv alphaXiv