BriefGPT - AI 论文速递 ·

解放已见类别：通过锚点生成和分类重构提升少样本和零样本文本分类

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文探讨了零样本学习在文本分类中的应用，提出了数据扩充、特征扩充和生成对抗网络（GANs）等多种方法。这些方法在不同数据集上表现优于现有技术，提升了模型的泛化能力和分类性能。

🎯

❓

零样本学习在文本分类中用于处理未知类别的文本，通过学习语句与标签之间的关系来进行预测。

该框架结合数据扩充和特征扩充，利用四种语义知识结构来提升零样本文本分类的准确率。

生成对抗网络用于生成目标类别的视觉特征，帮助将零样本学习转化为传统分类问题。

ZeroBERTo模型利用无监督聚类方法获取压缩数据表示，性能优于XLM-R，尤其在长文本输入上表现更佳。

通过使用新的预训练策略和无标签查询样本来估计新类别的分布，可以显著提高零样本学习的泛化能力。

自训练方法无需领域专业知识，仅需类别标签和无标记数据，能显著提高文本分类性能。

🏷️