本研究改进了大规模语言模型预训练中训练数据归属的方法,提高了处理超大规模数据集的效率。结果表明,该方法在识别影响模型预测的实例方面表现优异,揭示了事实归属与因果影响之间的错位,提示随着模型规模和数据的增加,影响与归属关系更加紧密。
本文探讨了数据归属在机器学习中的重要性,提出了一种基于自监督学习的低成本图像归属方法,能够有效识别生成图像的来源。研究分析了文本到图像扩散模型的可辨识性,并提出了通过逆向工程和记忆注入技术检测未经授权数据使用的方法。这些方法在CIFAR-10和ImageNet上表现出色。
完成下面两步后,将自动完成登录并继续当前操作。