哦,我再次取样了:重新诠释少样本学习中的置信区间
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文首次探讨了Few-Shot学习中的任务级评估,发现现有的Few-Shot学习基准测试设计不可靠,无法有效地在个别任务上使用方法。
🎯
关键要点
-
Few-Shot学习中的基准测试主要关注多个任务的平均性能。
-
尚未解决如何可靠评估和调整针对单个任务训练的模型的问题。
-
本文首次探讨了任务级评估,这是部署模型的基本步骤。
-
研究了少样本设置下性能估计器的准确性和模型选择策略。
-
发现通常被认为鲁棒的评估器在某些情况下会失败。
-
低折叠交叉验证被认为是直接估计模型性能的最佳选择。
-
自助法或大折叠交叉验证更适合用于模型选择目的。
-
现有的Few-Shot学习基准测试设计不可靠,无法有效评估个别任务的使用方法。
🏷️
标签
➡️