小红花·文摘

该研究报告介绍了Llama系列模型的开源数据污染报告，发现六个多项选择问答基准中存在1%至8.7%不同程度的污染。比较显示，Llama模型在被污染的子集上可以获得超过5%的更高准确率。