小红花·文摘

本研究探讨了仇恨言论检测模型在定义与实际行为之间的差距，提出了三步流程DefVerify，以编码用户定义、量化模型反映程度并识别失效点。研究发现，当前模型与定义存在显著差距，强调了改进模型构建的重要性。