小红花·文摘

本文探讨了利用自监督方法和无标注数据构建伪训练数据，以解决训练数据短缺的问题。研究表明，该方法在英语Switchboard数据集上表现优异，误差降低21%。提出的LARD方法有效生成人工语言障碍，提升混淆检测器的准确性。研究还分析了大型语言模型在数据增强和反事实生成中的应用潜力，强调了准确任务定义的重要性。