本研究通过使用大型语言模型生成合成临床文本,解决了因隐私风险导致的数据集不足问题。训练的命名实体识别模型显示出与依赖原始数据训练的模型性能相近,仅有小幅下降。
本研究提出了一种嵌入驱动的多样性采样方法,旨在解决临床文本分类中高质量标注数据不足的问题。该方法通过从少量真实临床笔记中提取多样性,指导大语言模型生成符合临床语法的合成文本,从而提升模型性能并减少数据需求。
本文提出了一种名为READ的文本分类方法,结合强化学习与对抗性学习,旨在解决标注数据稀缺的问题。通过生成多样化的合成文本,提升模型的泛化能力。实验结果表明,READ在多个数据集上优于现有方法。
本研究分析了扩散模型在差分隐私条件下生成合成文本的能力,结果显示其未能满足隐私保护要求,而开源LLM在隐私保护方面表现更佳。
INSPECTOR是一种人机交互数据检查技术,用于消除错误标签的合成文本。它结合了数据溯源和辅助标注的优势,提高了情感分析和仇恨言论检测任务中正确标签的文本数量。研究发现,按转换分组合成文本是最有用的技术。INSPECTOR旨在减少人工检查工作的需求。
完成下面两步后,将自动完成登录并继续当前操作。