文本嫁接:用于文本分类中少数类的近分布弱监督

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了文本嫁接框架,综合了弱监督文本分类、伪标签、LLM和少数类数据合成的优势。通过使用LLM挖掘掩码模板并填充合成文本,改进了挖掘或合成少数类数据的效果。通过分析和案例研究来理解文本嫁接的特性。

🎯

关键要点

  • 提出了一种名为文本嫁接的新框架。
  • 综合了弱监督文本分类、伪标签、LLM和少数类数据合成的优势。
  • 旨在获得少数类的干净且接近分布的弱监督。
  • 使用基于LLM的logits从原始语料库中挖掘掩码模板。
  • 通过先进的LLM填充模板来合成接近分布的文本。
  • 显著改进了直接挖掘或合成少数类数据的效果。
  • 通过分析和案例研究来理解文本嫁接的特性。
➡️

继续阅读