IBKD是一种基于信息瓶颈的知识蒸馏方法,通过最大化教师模型和学生模型的互信息,减少学生模型和输入数据的互信息,以应用于文本表示和下游任务。
提出了一种基于信息瓶颈的知识蒸馏方法IBKD。
IBKD通过最大化教师模型和学生模型的互信息来提高模型性能。
减少学生模型表示和输入数据之间的互信息,以保留重要的学习信息。
该方法旨在避免过拟合的风险。
IBKD有效应用于文本表示和下游任务。
完成下面两步后,将自动完成登录并继续当前操作。