小红花·文摘

该文介绍了一种名为DataInf的高效影响力近似计算方法，适用于大规模生成型AI模型。DataInf利用易于计算的闭合形式表达式，在计算和内存效率方面优于现有的影响力计算算法。实证评估表明，DataInf能够准确地近似影响力分数，并且比现有方法快几个数量级。在应用中，DataInf能够更好地识别出影响最大的微调示例，并且可以帮助识别出错误标记的数据点。