小红花·文摘

本研究分析了小型语言模型的设计缺陷，强调编码器-解码器架构在边缘设备上的高效性。提出了一种新颖的知识蒸馏框架，使编码器-解码器模型能够利用大型解码器的能力，显著提升在不对称序列任务中的表现，为资源有限环境中部署强大语言模型提供了新路径。