本研究提出了一种嵌入驱动的多样性采样方法,旨在解决临床文本分类中高质量标注数据不足的问题。该方法通过从少量真实临床笔记中提取多样性,指导大语言模型生成符合临床语法的合成文本,从而提升模型性能并减少数据需求。
本文提出了一种结合不确定性和多样性采样的主动学习算法,显著提高了标注效率。同时,研究探讨了基于贝叶斯深度学习的半监督学习方法,利用少量样本提升文本分类精度。实验验证了新方法在主动学习中的有效性和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。