从 LoRA 权重中恢复数据集大小
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
这篇文章介绍了一个新任务:数据集大小恢复,通过模型权重确定训练样本数量。研究人员提出了DSiRe方法,用于恢复微调模型的图像数量,并发现LoRA矩阵的范数和频谱与微调数据集大小密切相关。通过发布新基准LoRA-WiSE,包含25000个权重快照,研究人员证明了最佳分类器可以预测微调图像数量,平均绝对误差为0.36个图像。
🎯
关键要点
- 引入了一个新的任务:数据集大小恢复,旨在从模型权重中确定训练样本数量。
- 提出了DSiRe方法,用于恢复微调模型的图像数量。
- 发现LoRA矩阵的范数和频谱与微调数据集大小密切相关。
- 开发并发布了包含25000个权重快照的新基准LoRA-WiSE。
- 最佳分类器可以预测微调图像数量,平均绝对误差为0.36个图像,证明了攻击的可行性。
➡️