LLM 不适用时使用 FastFit: 快速高效的多类别文本分类
原文中文,约500字,阅读约需2分钟。发表于: 。FastFit 是一个 Python 包,利用批量对比学习和令牌级相似度评分的新方法,为许多语义相似类别的情况下提供快速准确的少样本分类。相较于现有的少样本学习包,如 SetFit、Transformers 或通过 API 调用大型语言模型的少样本提示,FastFit 在 FewMany 和多语种数据集中显著提高多类分类性能,训练速度提升 3-20 倍,在几秒钟内完成训练。FastFit...
NLP全数据分类器需要大量标记示例,但在数据有限的领域中不切实际。少样本学习方法通过对比学习技术,在每个类别只需20个示例即可有效。大型语言模型如GPT-4也可在每个类别只有1-5个示例的情况下运行。本研究在Banking77数据集上评估了这些方法的性能与成本之间的权衡,并提供了两种额外的方法来改善研究结果。同时,提供了一个人工专家策划的Banking77子集和错误分析,以激发未来的研究。