文本嫁接:用于文本分类中少数类的近分布弱监督
原文中文,约300字,阅读约需1分钟。发表于: 。综合了弱监督文本分类、伪标签、LLM 以及少数类数据合成的优势,提出了一种名为文本嫁接的新框架,旨在获得少数类的干净且接近分布的弱监督,通过使用基于 LLM 的 logits 从原始语料库中挖掘掩码模板,并通过先进的 LLM 填充模板来合成接近分布的文本,从而显著改进了直接挖掘或合成少数类数据的效果。同时通过分析和案例研究来理解文本嫁接的特性。
本文提出了文本嫁接框架,综合了弱监督文本分类、伪标签、LLM和少数类数据合成的优势。通过使用LLM挖掘掩码模板并填充合成文本,改进了挖掘或合成少数类数据的效果。通过分析和案例研究来理解文本嫁接的特性。