数据约束下的去标识化训练数据合成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究通过使用大型语言模型生成合成临床文本,解决了因隐私风险导致的数据集不足问题。训练的命名实体识别模型显示出与依赖原始数据训练的模型性能相近,仅有小幅下降。

🎯

关键要点

  • 本研究解决了临床领域因隐私风险导致缺乏广泛可用数据集的问题。
  • 通过将大型语言模型(LLMs)适应于临床领域,生成了带有个人可识别信息标签的合成临床文本。
  • 合成文本用于训练合成命名实体识别(NER)模型。
  • 研究结果表明,使用合成语料库训练的NER模型在预测性能上仅有小幅下降。
  • 这一过程的有效性几乎完全取决于使用原始数据训练的机器标注NER模型的表现。
➡️

继续阅读