该研究通过对比学习(CL)揭示了其对采样偏差具有内在的容忍度,并借助分布鲁棒优化(DRO)的视角填补了现有理论无法解释这一现象的研究空白。研究发现CL实质上是在负采样分布上进行DRO,从而在各种潜在分布中实现鲁棒性,并表现出对采样偏差的鲁棒性。温度τ的设计不仅仅是启发式的,而且起到拉格朗日系数的作用,调节潜在分布集合的大小。研究还建立了DRO和互信息之间的理论联系,并提出了一种新的基于φ-散度的广义互信息估计方法。研究还确定了CL的潜在缺点,并引入了一种新颖的调整的InfoNCE损失(ADNCE)来减轻这些问题。实验证实了该方法在多个领域的有效性。
该论文提出了一种简单高效的方法来减轻主动学习中的采样偏差,并实现了最先进的精度和模型鲁棒性。通过引入无偏查询策略,选择具有多样特性表示的信息性数据样本,实验结果表明,该方法在主动学习设置中具有较快的查询计算速度,并在对抗性数据集转移和预测真实分布方面具有显着优势。
我们提出了一种方法来表示双分图网络,使用定制的图嵌入方法来解决研究生态网络时面临的挑战,特别是需要考虑许多协变量,尤其是为了控制采样偏差。我们将变分图自编码器方法改编为双分图的情况,这使我们能够在潜在空间中生成节点的嵌入,这两组节点的位置是基于它们的连接概率确定的。我们将社会学中常用的公平框架转化为生态学中解决采样偏差的方法。通过将 Hilbert-Schmidt 独立性准则(HSIC)作为损失函数中的附加惩罚项进行优化,我们确保潜在空间的结构与与采样过程相关的连续变量无关。最后,我们展示了当应用于 Spipoll 数据集时,我们的方法如何改变我们对生态网络的理解,这是一个众包式的植物 - 传粉者相互作用的公众科学监测计划,容易出现采样偏差。
本文介绍了风险距离的概念,用于量化监督学习问题中的采样偏差、噪声、有限数据和近似等问题的严重性。通过建立距离,探索了监督学习问题空间的几何特征,并提供了两个 Risk 距离的变种。
该研究揭示了对比学习(CL)对采样偏差具有内在的容忍度,并通过分布鲁棒优化(DRO)的视角填补了现有理论无法解释这一现象的研究空白。研究发现,CL 实质上是在负采样分布上进行 DRO,从而在各种潜在分布中实现鲁棒性。研究还提出了一种新的基于 φ- 散度的广义互信息估计方法,并引入了一种新颖的调整的 InfoNCE 损失(ADNCE)来减轻 CL 的潜在缺点。实验证实了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。