Embedding-Driven Diversity Sampling for Improved Few-Shot Synthetic Data Generation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种嵌入驱动的多样性采样方法,旨在解决临床文本分类中高质量标注数据不足的问题。该方法通过从少量真实临床笔记中提取多样性,指导大语言模型生成符合临床语法的合成文本,从而提升模型性能并减少数据需求。
🎯
关键要点
- 本研究提出了一种嵌入驱动的多样性采样方法。
- 该方法旨在解决临床文本分类中高质量标注数据不足的问题。
- 通过从少量真实临床笔记中提取多样性,指导大语言模型生成合成文本。
- 该方法提升了模型性能并减少了数据需求。
- 合成数据的效用接近真实数据。
➡️