传统的预训练和微调流程中的遗忘现象可能对下游任务产生不利影响。提出了一种新颖的延迟瓶颈预训练(DBP)框架,通过抑制压缩操作并延迟至微调阶段来保持潜在表示与训练数据之间的互信息,以确保压缩能够由有标签的微调数据和下游任务进行引导。
完成下面两步后,将自动完成登录并继续当前操作。