Apple Machine Learning Research ·

基于评估指标的标签分布学习中的标注饱和度

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文探讨了标注者在标签分布上的分歧对模型学习的影响。研究发现，评估指标的不同导致所需标注者数量差异：熵相关性需要约20-50名标注者，而分布匹配在约10名标注者时即可饱和。软标签在识别模糊与清晰项目方面优于标签平滑，建议根据目标评估指标调整标注预算。

🎯

🔎

标注者之间的分歧不仅是问题的表现，实际上它们携带着重要的信号。研究表明，理解这些分歧对于模型的学习至关重要，尤其是在选择评估指标时。不同的指标会影响所需标注者的数量，因此在设计标注策略时应考虑这一点。

软标签在处理模糊和清晰项目时表现优于传统的标签平滑方法。这一发现强调了在模型训练中使用软标签的重要性，尤其是在需要区分复杂数据时。研究结果表明，软标签能够更好地捕捉项目特定的信号，从而提升模型的性能。

根据目标评估指标调整标注预算，而非统一设定，可以更有效地利用资源。研究显示，不同的评估指标对标注者数量的需求差异显著，因此灵活的预算分配能够提高标注效率和模型的学习效果。

❓

标注者之间的分歧本身携带信号，影响模型学习的效果，所需的标注者数量取决于评估指标。

熵相关性需要约20-50名标注者才能收敛，而分布匹配在约10名标注者时即可饱和。

软标签在识别模糊与清晰项目方面优于标签平滑，能够提供更好的项目特定信号。

建议根据目标评估指标来调整标注预算，而不是统一设定，以提高标注效率。

是的，软标签的优势在不同架构（如DeBERTa和RoBERTa）中均得到了验证。

ChaosNLI数据集提供每个项目100个独立的标注者判断，用于分析标注者分歧对模型学习的影响。

🏷️