Calpric: 集众包和主动学习的隐私政策全面细粒度标注
原文中文,约300字,阅读约需1分钟。发表于: 。Calpric 使用自动文本选择和分割、主动学习和众包注释器相结合的方法,以低成本生成大规模、均衡的隐私政策训练集,使得不具备专业训练的注释者能够与法律学生等经过训练的注释者相竞争,降低注释成本,并通过少量训练样本高效覆盖输入空间,进一步降低成本并提高数据集的类别平衡和数据类别详细度。众包过程使得 Calpric 以大约 0.92-1.71...
Calpric使用自动文本选择和分割、主动学习和众包注释器相结合的方法生成大规模、均衡的隐私政策训练集,成本低且可信赖。标注数据集包含16K个隐私政策文本段,涵盖9个数据类别,具有平衡的正负样本。