哦,我再次取样了:重新诠释少样本学习中的置信区间

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文首次探讨了Few-Shot学习中的任务级评估,发现现有的Few-Shot学习基准测试设计不可靠,无法有效地在个别任务上使用方法。

🎯

关键要点

  • Few-Shot学习中的基准测试主要关注多个任务的平均性能。

  • 尚未解决如何可靠评估和调整针对单个任务训练的模型的问题。

  • 本文首次探讨了任务级评估,这是部署模型的基本步骤。

  • 研究了少样本设置下性能估计器的准确性和模型选择策略。

  • 发现通常被认为鲁棒的评估器在某些情况下会失败。

  • 低折叠交叉验证被认为是直接估计模型性能的最佳选择。

  • 自助法或大折叠交叉验证更适合用于模型选择目的。

  • 现有的Few-Shot学习基准测试设计不可靠,无法有效评估个别任务的使用方法。

➡️

继续阅读