本文探讨了大型语言模型(LLM)中的数据污染问题,提出了识别和评估污染的方法,如Clean-Eval和CDD。研究表明,LLM在零样本和小样本任务中可能受到训练数据污染的影响,强调了独立污染评估的必要性。此外,提出了MMStar基准以评估多模态能力,并探讨了基准数据污染的挑战及解决方案。
完成下面两步后,将自动完成登录并继续当前操作。