从 LoRA 权重中恢复数据集大小

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

这篇文章介绍了一个新任务:数据集大小恢复,通过模型权重确定训练样本数量。研究人员提出了DSiRe方法,用于恢复微调模型的图像数量,并发现LoRA矩阵的范数和频谱与微调数据集大小密切相关。通过发布新基准LoRA-WiSE,包含25000个权重快照,研究人员证明了最佳分类器可以预测微调图像数量,平均绝对误差为0.36个图像。

🎯

关键要点

  • 引入了一个新的任务:数据集大小恢复,旨在从模型权重中确定训练样本数量。
  • 提出了DSiRe方法,用于恢复微调模型的图像数量。
  • 发现LoRA矩阵的范数和频谱与微调数据集大小密切相关。
  • 开发并发布了包含25000个权重快照的新基准LoRA-WiSE。
  • 最佳分类器可以预测微调图像数量,平均绝对误差为0.36个图像,证明了攻击的可行性。
➡️

继续阅读