重新思考开放词汇分割的评估指标
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
该文提出了针对开放词汇分割任务的三个新型评估指标,即 Open mIoU、Open AP 和 Open PQ,并在 12 种开放词汇方法上进行了基准测试,旨在为社区带来关于如何评估模型的开放能力的新思考。
🎯
关键要点
- 提出了三个新型评估指标:Open mIoU、Open AP 和 Open PQ。
- 评估指标旨在解决开放词汇分割任务中的评估问题。
- 现有评估方法依赖于闭集指标,未考虑预测与实际类别的相似性。
- 通过综合定量分析和用户研究,调查了11种相似性测量方法。
- 在12种开放词汇方法上对新评估指标进行了基准测试。
- 尽管相似性距离具有主观性,指标仍能有效评估开放词汇分割方法的能力。
- 希望为社区提供关于评估模型开放能力的新思考。
- 评估代码已在GitHub上发布。
➡️