生成标记培训数据的开源工具包:Fabricator 和 Teacher LLMs
原文中文,约400字,阅读约需1分钟。发表于: 。NLP 任务通常被建模为监督学习,然而需要大量标记训练数据以训练有效模型的手工生产被认为耗时且昂贵,因此当前研究探索一种称为零样本学习的新范式,通过数据集生成来解决这个瓶颈。本文介绍一个名为 Fabricator 的开源 Python 工具包用于数据集生成,它实现了常见的数据集生成工作流程,支持多种下游自然语言处理任务,并与众所周知的库进行整合以便于快速实验。Fabricator...
Fabricator是一个开源Python工具包,用于解决NLP任务中标记训练数据的瓶颈。该工具包支持多种下游自然语言处理任务,并与众所周知的库进行整合以便于快速实验。Fabricator旨在支持研究人员进行可复现的使用LLMs进行数据集生成实验,并帮助从业者将该方法应用于训练下游任务的模型。