合成填补方法:为监督分类任务中的被低估类别生成最佳合成文本
📝
内容提要
本文解决了在构建高质量训练集中,如何为所有类别提供足够示例的问题。提出的合成填补方法利用生成型大型语言模型(GPT-4o)生成合成文本,确保这些文本在保留原始示例实质性含义的同时,与原始文本有显著差异,以降低过拟合。研究表明,使用75个原始示例或更多时,合成填补方法的表现与使用完整原始文本样本持平,并且在50个原始样本时过拟合程度可预测且可纠正。
➡️