小红花·文摘 - 小红花技术领袖俱乐部

本研究提出双空间知识蒸馏（DSKD）框架，解决了白盒知识蒸馏在输出空间和词汇不兼容性的问题。通过统一模型预测头和精确标记对齐算法，DSKD显著提升了知识蒸馏效果，实验结果表明其在多个基准测试中优于现有方法。

A Dual-Space Framework for General Knowledge Distillation in Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了较小语言模型（SLMs）在指令演变中的优势，发现SLMs能够生成更复杂和多样的指令变体，具有更广泛的输出空间。同时，提出的IC-IFD指标有效提升了指令数据的评价。

Smaller Language Models Are More Suitable for Instruction Evolution

BriefGPT - AI 论文速递 ·