该研究提出了一种新系统,利用音视频自我蒸馏技术,使唇读更加个性化和准确。系统通过专门的预训练适应不同说话者,结合视觉和音频数据,显著提升了传统唇读方法的准确性。
本研究提出了一种新颖的音视频嵌入学习方法,结合跨模态三重损失与逐步自我蒸馏,解决了标签引导导致的性能不足问题。该方法通过动态优化软对齐,提升了表征学习,有效捕捉内在关系,从而提高音视频嵌入性能。
该研究提出了一种轻量级且稳定的零-shot文本转语音合成系统,解决了对大规模模型和训练数据的依赖。通过新颖的架构和双阶段自我蒸馏框架,有效解耦语言内容与说话者特征,实验结果表明该系统在零-shot任务中表现优越,计算效率更高。
本研究提出DPRefine方法,解决差分隐私随机梯度下降在语言模型训练中的效用和质量下降问题。通过数据合成、私有数据微调和自我蒸馏,DPRefine有效减少语言错误,展示了隐私保护语言模型的潜力。
本文介绍了一种新的数学推理多视角微调方法,旨在提升小型语言模型的性能,灵活适应不同注释格式,并在多个数据集上实现良好的泛化能力。研究表明,预训练损失是模型性能的有效指标,数据量与模型性能呈对数线性关系。此外,提出的自我蒸馏微调方法在多个基准测试中表现优异,展示了大型语言模型在数学优化问题上的潜力。
最近的研究将命名实体识别推向较先进阶段,融入了视觉信号,产生了多模态命名实体识别(MNER)或基于图像的MNER(GMNER)的多个变种。提出了SCANNER,一种能够有效处理这三种NER变体的模型。SCANNER是一个两阶段结构,通过提取实体候选并获取知识来处理未知实体,提高性能。引入了自我蒸馏方法,提高模型在处理具有固有不确定性的训练数据时的鲁棒性和准确性。方法在NER基准测试中展示出有竞争力的性能,并在MNER和GMNER基准测试中超越了现有方法。
我们提出了一种新颖的联邦类增量学习方法(FCIL),名为具有新类增强的自我蒸馏(FedNASD)。FedNASD通过将当前模型推断的新类分数与历史模型的预测相结合,在客户端上进行自我蒸馏,实现有效的知识转移。实验表明,FedNASD在降低遗忘率和提高准确性方面优于其他算法。
本文介绍了CSDNet,一种用于超细粒度视觉分类任务的创新框架。CSDNet通过对比学习和自我蒸馏来学习判别式表示。实验结果表明,CSDNet在超细粒度视觉分类任务中优于当前最先进的方法。
本文介绍了一种可召集的道德推理任务,通过自我蒸馏方法获得了一个学生模型,用于生成具有改进的有效性、多样性和可推翻性的有争议背景。利用这个模型,提炼了一个高质量的数据集《δ-Rules-of-Thumb》,其中包含 115,000 个高度被人工标注者评价为 85.9% 至 99.8% 的可推翻道德行为的 1.2M 个背景和理由。最终获得了一种明显优于所有中间学生模型的最终学生模型。
完成下面两步后,将自动完成登录并继续当前操作。