从人工制造到真实:利用大型语言模型的伪数据进行低资源分子发现
原文中文,约300字,阅读约需1分钟。发表于: 。利用大型语言模型生成的人工真实数据,我们通过提出一种查询引导策略以构建高质量的伪数据,并探索了有效利用这些伪数据的最佳方法来解决低资源挑战。实验证明,使用伪数据进行领域适应的效果优于所有现有的方法,同时需要更小的模型规模、更少的数据量和更低的训练成本,凸显其高效性。此外,我们的方法在伪数据量增加时持续改进,揭示了伪数据在推进低资源跨模态分子发现方面的巨大潜力。
该研究使用大型语言模型生成高质量伪数据,并探索有效利用伪数据的方法解决低资源挑战。实验证明,使用伪数据进行领域适应的效果优于现有方法,同时需要更小的模型规模、更少的数据量和更低的训练成本,具有高效性。该方法在伪数据量增加时持续改进,揭示了伪数据在推进低资源跨模态分子发现方面的潜力。