本研究比较了从头开始预训练与几种知识蒸馏策略在计算资源和预训练数据方面的表现。结果发现TinyBERT和MiniLM优于从头开始预训练。其他研究提出了MixKD、MKD、KDEP、MiniLLM、交流式通信、基于Transformer的压缩方法、ATKD、中间层蒸馏、标签正则化微调和适应文本分类任务的方法。
该研究提出了Source-free Multi-target Domain Adaptation任务,并使用CoNMix框架解决。该框架利用目标伪标签改善目标适应性,并使用伪标签细化方法减少噪声伪标签。此外,还提出了MKD用于改进多个目标域的泛化能力,并展示了VT骨干具有更好的特征表示和分类可辨别性。该框架在多种流行域适应数据集上实现了最先进的成果。
本文介绍了FedDAT框架,用于异构多模态联邦学习的调优。该框架利用Dual-Adapter Teacher处理数据异质性,通过MKD实现高效的知识传递。实验结果表明,FedDAT优于现有的集中PEFT方法。
完成下面两步后,将自动完成登录并继续当前操作。