小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新颖的混合蒸馏方法，旨在提升低资源语言的多语种模型知识蒸馏性能。该方法结合了传统知识蒸馏与注意力匹配机制，实验结果显示在五种非洲语言上表现良好，学生模型体积比传统模型小85%以上，准确率保持在85%。

AfroXLMR-Comet: Multilingual Knowledge Distillation and Attention Matching for Low-Resource Languages

BriefGPT - AI 论文速递 ·

本文揭示了小模型在强推理能力方面的“学习能力差距”，发现其在短推理链上的表现优于长推理链。提出“混合蒸馏”方法，通过结合长短推理示例提升小模型的推理性能，强调适应推理复杂性的重要性。

Small Models Struggle to Learn from Strong Reasoners

BriefGPT - AI 论文速递 ·