小红花·文摘

本研究比较了从头开始预训练与几种知识蒸馏策略在计算资源和预训练数据方面的表现。结果发现TinyBERT和MiniLM优于从头开始预训练。其他研究提出了MixKD、MKD、KDEP、MiniLLM、交流式通信、基于Transformer的压缩方法、ATKD、中间层蒸馏、标签正则化微调和适应文本分类任务的方法。

知识蒸馏与固定计算预算下的从零开始训练对比

BriefGPT - AI 论文速递 ·

该研究提出了Source-free Multi-target Domain Adaptation任务，并使用CoNMix框架解决。该框架利用目标伪标签改善目标适应性，并使用伪标签细化方法减少噪声伪标签。此外，还提出了MKD用于改进多个目标域的泛化能力，并展示了VT骨干具有更好的特征表示和分类可辨别性。该框架在多种流行域适应数据集上实现了最先进的成果。

COMET：用于在线无源通用领域自适应的对比均值教师

BriefGPT - AI 论文速递 ·

本文介绍了FedDAT框架，用于异构多模态联邦学习的调优。该框架利用Dual-Adapter Teacher处理数据异质性，通过MKD实现高效的知识传递。实验结果表明，FedDAT优于现有的集中PEFT方法。

FedPEAT：移动边缘计算中的联邦学习、参数高效微调和仿真器辅助调整在人工智能基础模型上的融合

BriefGPT - AI 论文速递 ·