Fine-Tuning A Large Language Model for Systematic Review Screening

仅用 315 篇标注摘要在 2 分钟内将 LFM2.5-1.2B 微调为系统综述筛选器，实现 91.18% 敏感度，跨温度设置预测完全一致，展示了小型 LLM 在循证医学文献筛选中的实用潜力。

ai-for-healtharXivKweku Yamoah, Noah Schroeder, Emmanuel Dorley, Neha Rani, et al.

第 0 节 — 论文元数据

字段	内容
标题	Fine-Tuning A Large Language Model for Systematic Review Screening
作者与机构	Kweku Yamoah、Noah Schroeder、Emmanuel Dorley、Neha Rani、Caleb Schutz（佛罗里达大学，盖恩斯维尔）
发表载体 / 状态	arXiv 预印本，2026 年 3 月 25 日（v1）
代码 / 数据可用性	使用 Unsloth 框架 + HuggingFace 训练栈；模型基础为 LFM2.5-1.2B-Instruct（Liquid AI）[paper]
可重复性信号	训练集/测试集分割（315/56）明确；单次 NVIDIA B200 GPU 训练约 2 分钟 [paper]

本文解决的具体问题是什么？ 系统综述筛选（标题/摘要阅读）是循证医学中劳动密集型的核心步骤。本文探索将小型 LLM 微调为领域专用筛选器，作为第二筛选者替代或辅助人工。

现有方法为何在此失效？ 大型通用 LLM（如 GPT-4）基础模型在系统综述筛选任务上性能极差（基础 LFM2.5-1.2B 仅 6.52% 准确率）；人工双重筛选成本高、耗时长；现有 NLP 工具缺乏对特定综述问题的领域适应能力。[paper]

为什么这个问题值得解决？ 一项典型系统综述需要筛选数千至数万篇文献，双重人工筛选耗时数周至数月；可靠的 AI 第二筛选者可显著降低成本并加速循证医学知识更新。[paper]

核心贡献（一句话）: 在 371 篇标注摘要上对 LFM2.5-1.2B-Instruct 进行全参数微调，实现对 8277 篇未见文献的系统综述筛选，获得 86.40% 总体一致性和 91.18% 敏感度。

方法流程:

模型选择：Liquid AI LFM2.5-1.2B-Instruct，bfloat16 精度
训练设置：Unsloth 框架，全参数微调（非 PEFT），AdamW 8-bit，批大小 8，学习率 2×10⁻⁵，320 步（约 2 分钟，单张 NVIDIA B200）
数据构成：371 标注摘要（纳入/排除）来自 8694 篇关于生成式 AI 在计算机科学教育中应用的文献；正例过采样应对类别不平衡
三阶段评测：基础模型性能 → 测试集（56 篇）→ 完整数据集（8277 篇）

真正的新颖点: 在极小训练集（315 篇）上实现高效全参数微调；发现跨温度设置（0.1/0.4/0.8）的完美预测一致性，揭示微调模型的确定性特性。[paper]

复杂度分析: 全参数微调（1.2B 参数）在 B200 上仅需 2 分钟；推理阶段无额外开销；极低资源需求。[paper]

评测集	总体准确率	敏感度（纳入）	特异度（排除）	Gwet's AC₁
测试集（56 篇）	94.64%	94.12%（≈1-FNR 5.88%）	—	—
完整数据集（8277 篇）	86.40%	91.18%	86.38%	0.843

消融实验分析: 三种温度设置（0.1/0.4/0.8）下预测完全一致，验证了微调模型的行为确定性；基础模型 vs 微调模型的对比（准确率从 6.52% 到 94.64%）量化了微调收益。[paper]

统计严谨性: Gwet's AC₁（κ=0.843）用于处理类别不平衡问题（优于 Cohen's κ）；80.79% F1 提升相对基础模型记录清晰。[paper]

潜在混淆因素: 数据集来自单一综述课题（生成式 AI × 计算机科学教育），跨领域泛化性未验证；人工标注来自单一编码者，标注一致性未说明；精确率极低（2.69%）意味着大量误报。[paper]

方法层面的隐患: 单一编码者 ground truth 存在标注噪声；精确率 2.69% 意味着在 8277 篇中产生大量误报，实际仍需大量人工复核；全参数微调在极小数据集上有过拟合风险（测试集仅 56 篇）。[inferred]

实验层面的问题: 单一综述主题、单一学科领域，泛化能力存疑；未与其他系统综述 AI 工具（Covidence、Rayyan）比较；测试集 56 篇样本量过小。[inferred]

声明范围: 论文谨慎地声明"作为第二筛选者辅助"而非完全自动化，范围合理。[paper]

客观优点: 极低计算成本（2 分钟训练）使方法高度可及；Gwet's AC₁ 的使用显示了统计工具选择的合理性；跨温度一致性验证了实用可靠性。[paper]

TL;DR（30 秒摘要）: 仅用 315 篇标注摘要在 2 分钟内将 LFM2.5-1.2B 微调为系统综述筛选器，实现 91.18% 敏感度（漏检率 8.82%）和 86.40% 总体一致性；跨温度完美一致性确保了实用可靠性，但单一领域限制了泛化声明。

创新类型判断: 应用迁移（Applied Transfer）——将 LLM 微调技术应用于循证医学领域的实用探索。[paper]

部署成熟度: TRL 5-6（小规模验证，领域适用性需进一步测试）。[inferred]

开放问题: 跨综述主题的泛化能力；更小数据集（<100 篇）的微调可行性；与 PEFT 方法（LoRA）的对比；主动学习策略减少标注需求。[inferred]

复现注意事项: LFM2.5-1.2B-Instruct 通过 HuggingFace 可获取；Unsloth 框架开源；需 NVIDIA B200 或等效 GPU（A100 可替代但更慢）。[paper]