使用大型语言模型生成真实的表格数据
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了现有大型语言模型在生成表格数据时未能正确捕捉特征与目标变量之间的关系的问题。作者提出了一种基于LLM的方法,通过输入数据的新颖排列策略、特征条件抽样方法和基于生成样本构建提示的标签生成,显著提高了合成样本的质量和多样性。实验结果表明,使用该合成数据训练的分类器在多个基准数据集上的表现与使用原始数据训练的分类器相当,具有重要的应用价值。
本研究提出了一种基于大型语言模型的方法,解决了生成表格数据时特征与目标变量关系捕捉不准确的问题。通过创新的数据排列、特征抽样和标签生成,显著提升了合成样本的质量和多样性。实验结果表明,使用合成数据训练的分类器与原始数据的表现相当,具有重要的应用价值。