通过信息瓶颈原理进行文本表示精简

为了使模型更加易用,我们提出了一种基于信息瓶颈的知识蒸馏方法 IBKD,通过最大化教师模型和学生模型的最终表示之间的互信息,并减少学生模型表示和输入数据之间的互信息,以保留重要的学习信息并避免过拟合的风险,从而有效地在文本表示和下游任务中应用。

我们提出了一种基于信息瓶颈的知识蒸馏方法IBKD,旨在提高模型易用性。该方法通过增强教师与学生模型表示间的互信息,减少学生模型与输入数据间的互信息,有效避免过拟合,适用于文本表示和下游任务。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文