人机协同的合成文本数据审查与溯源跟踪
原文中文,约500字,阅读约需2分钟。发表于: 。使用数据增强技术生成的合成文本及其相应的标签分析是缓慢且繁重的任务。为了消除具有错误标签的文本,我们开发了一种名为 INSPECTOR 的人机交互数据检查技术,结合了数据溯源技术与辅助标注的优势。INSPECTOR 允许用户根据原始文本的转换溯源或语言特征溯源将相关文本分组,并计算近似数据质量的指标,将每个文本的标签与大型语言模型的预测进行比较。在用户研究中,使用 INSPECTOR...
INSPECTOR是一种人机交互数据检查技术,用于消除错误标签的合成文本。它结合了数据溯源和辅助标注的优势,提高了情感分析和仇恨言论检测任务中正确标签的文本数量。研究发现,按转换分组合成文本是最有用的技术。INSPECTOR旨在减少人工检查工作的需求。