利用再识别揭示视频扩散模型中的隐含子空间
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了在使用合成数据进行特定下游任务时隐私保护模型性能不足的问题。通过引入再识别模型并在潜在空间中训练,发现能够更有效地评估合成视频数据集覆盖的子空间,并提出了一种新的测量生成机器学习模型可信度的方法。研究表明,在潜在视频扩散模型中,仅学习了最多30.8%的训练视频,这可能导致在合成数据上训练下游任务时性能不足。
潜在扩散模型在医学图像合成中应用广泛,但存在患者数据记忆化问题,可能导致隐私泄露。研究显示,CT、MRI和X射线数据集中分别有41.7%、19.6%和32.6%的记忆化现象。增加训练数据和数据增强可减少记忆化,而过度训练则会加剧。建议在开放数据共享前评估合成数据的记忆化影响。