DataInf: 在经过认证的 LLMs 和扩散模型中高效估计数据影响力

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一种名为DataInf的高效影响力近似计算方法,适用于大规模生成型AI模型。DataInf利用易于计算的闭合形式表达式,在计算和内存效率方面优于现有的影响力计算算法。实证评估表明,DataInf能够准确地近似影响力分数,并且比现有方法快几个数量级。在应用中,DataInf能够更好地识别出影响最大的微调示例,并且可以帮助识别出错误标记的数据点。

🎯

关键要点

  • 提出了一种名为DataInf的高效影响力近似计算方法,适用于大规模生成型AI模型。

  • DataInf利用易于计算的闭合形式表达式,在计算和内存效率方面优于现有的影响力计算算法。

  • 理论分析表明,DataInf特别适用于LoRA等参数效率高的微调技术。

  • 实证评估显示,DataInf能够准确地近似影响力分数,并且比现有方法快几个数量级。

  • 在RoBERTa-large、Llama-2-13B-chat和stable-diffusion-v1.5模型的应用中,DataInf能够更好地识别出影响最大的微调示例。

  • DataInf还可以帮助识别出错误标记的数据点。

➡️

继续阅读