小红花·文摘

本文探讨了大型语言模型（LLM）中的数据污染问题，提出了识别和评估污染的方法，如Clean-Eval和CDD。研究表明，LLM在零样本和小样本任务中可能受到训练数据污染的影响，强调了独立污染评估的必要性。此外，提出了MMStar基准以评估多模态能力，并探讨了基准数据污染的挑战及解决方案。