本研究探讨了现实世界中few-shot目标检测的方法,发现距离度量学习在新颖类别上表现更好,并证明了在真实世界的开放数据集中扩展目标类别对few-shot学习有利。
该论文研究了通过隐式语义增强提高模型泛化性能的方法,并在三个基准测试数据集上实现了最先进的性能水平。该方法使用距离度量学习和交叉熵损失的 logits 作为输入特征。
本文介绍了一种优化开放式音视频说话人验证的方法,通过多任务学习技术提高了距离度量学习方法的性能,展示了弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时,将GE2E扩展到多模态输入,并证明其在音视频领域可以达到竞争性的性能。引入了一种非同步音视频采样的随机策略,该策略在训练时能改善泛化效果。在VoxCeleb1-O/E/H的三个官方试验列表中报告了最佳结果。
完成下面两步后,将自动完成登录并继续当前操作。