右删失数据下的两样本检验的机器学习:模拟研究

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

本文提出了一种基于最大均值差异(MMD)的双样本检验方法,分析了在样本选择偏差和高维情况下的统计检验能力。研究了MMD在ε污染下的估计问题,并提出了改进的估计方法,展示了其在变量选择和神经网络检验中的应用,强调了方法的有效性和统计功率。

🎯

关键要点

  • 提出了一种基于最大均值差异(MMD)的双样本检验方法,分析了样本选择偏差和高维情况下的统计检验能力。

  • 研究了MMD在ε污染下的估计问题,展示了在ε污染下,典型的MMD估计是不可靠的。

  • 提出了一种改进的估计方法,给出了收敛速度比其他方法更快的对MMD最尖锐的界估计。

  • 在变量选择中,通过优化自适应相关检测(ARD)权重,确定引起两个分布差异的变量,验证了所提方法的有效性。

  • 构建和分析了神经网络两样本检验,推导出确保检测数据集之间偏差水平所需的理论最小和最大训练时间。

延伸问答

什么是最大均值差异(MMD)双样本检验?

最大均值差异(MMD)双样本检验是一种用于检测两个分布之间差异的统计方法,特别适用于高维数据和样本选择偏差的情况。

在ε污染下,MMD的估计有什么问题?

在ε污染下,典型的MMD估计是不可靠的,因为存在非随机的ε比例将一个分布错误地分组到另一个分布中。

如何改进MMD的估计方法?

提出了一种改进的估计方法,通过优化自适应相关检测(ARD)权重,提供了收敛速度比其他方法更快的对MMD最尖锐的界估计。

MMD在变量选择中的应用是什么?

MMD通过优化ARD权重来确定引起两个分布差异的变量,验证了所提方法的有效性。

神经网络两样本检验的理论分析包括哪些内容?

神经网络两样本检验的理论分析包括推导确保检测数据集之间偏差水平所需的理论最小和最大训练时间。

MMD方法在实际数据中的表现如何?

MMD方法在合成和实际数据上表现良好,尤其是在功率方面与当前最先进的核测试进行了比较。

➡️

继续阅读