重新思考开放词汇分割的评估指标
原文中文,约500字,阅读约需1分钟。发表于: 。评估在开放词汇分割中采用的评估指标存在问题,即评估过程仍然严重依赖于零样本或交叉数据集流水线上的闭集指标,而未考虑预测和实际类别之间的相似性。为了解决这个问题,我们首先通过综合定量分析和用户研究使用 WordNet 语言统计、文本嵌入和语言模型调查了 11 种不同的相似性测量方法。在此基础上,我们设计了针对三个开放词汇分割任务的新型评估指标,即 Open mIoU、Open AP 和...
该文提出了针对开放词汇分割任务的三个新型评估指标,即 Open mIoU、Open AP 和 Open PQ,并在 12 种开放词汇方法上进行了基准测试,旨在为社区带来关于如何评估模型的开放能力的新思考。