面向主观 NLP 任务的标注者中心主动学习
内容提要
本文探讨了主动学习中的标注成本和采样效率,提出了基于多样性原则的查询策略和自适应聚类算法D-CALM,显著提高了标注效率和模型性能。研究表明,结合大型语言模型(LLMs)与主动学习能够有效降低人工成本并提升决策效果。
关键要点
-
使用大型语言模型(GPT-3.5 和 GPT-4)结合混合注释策略,能在多个数据集上取得与人工注释相似或更好的结果,降低标注成本。
-
提出基于多样性原则的主动学习查询策略,旨在减少抽象文本摘要中的注释成本,并提高 ROUGE 和一致性分数。
-
新提出的自适应聚类主动学习算法 D-CALM,通过动态调整聚类和注释工作,显著优于基线方法,降低模型偏差。
-
在主动学习中,多头模型在不确定性估计方面优于单头模型,节约高达 70% 的标注预算。
-
主动学习在文本生成方面的应用效果不佳,现有策略无法持续超越随机选择的基准线。
-
提出数据筛选算法以最小化注释成本,广泛实验表明该策略优于其他主动学习策略。
-
强调根据注释任务的主观性收集多样化数据,以有效训练模型,并提高任务选择效率。
延伸问答
如何利用大型语言模型降低标注成本?
通过结合混合注释策略,使用大型语言模型(如GPT-3.5和GPT-4)可以在多个数据集上取得与人工注释相似或更好的结果,从而降低标注成本。
D-CALM算法的主要优势是什么?
D-CALM算法通过动态调整聚类和注释工作,显著优于基线方法,能够降低模型偏差并提高鲁棒性。
主动学习在文本生成中的应用效果如何?
研究表明,主动学习在文本生成方面的应用效果不佳,现有策略无法持续超越随机选择的基准线。
如何提高主动学习的标注效率?
可以通过提出基于多样性原则的查询策略和数据筛选算法来提高主动学习的标注效率,减少注释成本。
多头模型在不确定性估计方面的优势是什么?
多头模型在不确定性估计方面显著优于单头模型,能够节约高达70%的标注预算。
主动学习的局限性是什么?
主动学习的局限性在于其在不同模型和任务之间的泛化效果不可靠,且与独立同分布的随机样本训练相比,优势并不明显。