Embedding-Driven Diversity Sampling for Improved Few-Shot Synthetic Data Generation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种嵌入驱动的多样性采样方法,旨在解决临床文本分类中高质量标注数据不足的问题。该方法通过从少量真实临床笔记中提取多样性,指导大语言模型生成符合临床语法的合成文本,从而提升模型性能并减少数据需求。

🎯

关键要点

  • 本研究提出了一种嵌入驱动的多样性采样方法。
  • 该方法旨在解决临床文本分类中高质量标注数据不足的问题。
  • 通过从少量真实临床笔记中提取多样性,指导大语言模型生成合成文本。
  • 该方法提升了模型性能并减少了数据需求。
  • 合成数据的效用接近真实数据。
➡️

继续阅读