随机森林中超参数对变量选择的影响
💡
原文约600字/词,阅读约需2分钟。
📝
内容提要
本文研究了随机森林在高维物质研究中的预测建模和变量选择方面的适用性。通过两个模拟研究,评估了Vita和Boruta变量选择程序的效果。结果表明,超参数的适当设置取决于数据中的相关结构,超参数的默认值并非总是适合于识别重要变量。因此,适当的取值因研究的目标是否在于优化预测性能或变量选择而异。
🎯
关键要点
-
本文研究随机森林在高维物质研究中的预测建模和变量选择的适用性。
-
通过两个模拟研究评估Vita和Boruta变量选择程序的效果。
-
超参数的设置依赖于数据中的相关结构,默认值不一定适合识别重要变量。
-
分割候选变量的比例和训练数据集的样本比例对选择程序的影响大于其他因素。
-
对于弱相关预测变量,mtry的默认值是最优的,但较小的sample.fraction值会提高敏感性。
-
对于强相关预测变量,最优值与默认值的敏感性差异可忽略,较小的值在其他情况下更好。
-
超参数的适当取值因研究目标而异,可能是优化预测性能或变量选择。
➡️