大规模语言模型的基于令牌的影响训练数据检索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们提出了DataInf,一种高效的影响力近似计算方法,适用于大规模生成型AI模型。通过闭合形式表达式,DataInf在计算和内存效率方面优于现有算法。实证评估表明,DataInf准确地近似了影响力分数,并且比现有方法快几个数量级。在应用中,DataInf能够更好地识别出影响最大的微调示例,并帮助识别出错误标记的数据点。

🎯

关键要点

  • 提出了DataInf,一种高效的影响力近似计算方法,适用于大规模生成型AI模型。
  • DataInf通过闭合形式表达式在计算和内存效率方面优于现有算法。
  • 理论分析表明,DataInf特别适用于LoRA等参数效率高的微调技术。
  • 实证评估显示,DataInf准确近似影响力分数,并且比现有方法快几个数量级。
  • 在RoBERTa-large、Llama-2-13B-chat和stable-diffusion-v1.5模型中,DataInf能更好地识别影响最大的微调示例。
  • DataInf还可以帮助识别错误标记的数据点。
🏷️

标签

➡️

继续阅读