文本与图像都泄漏了!对多模态大语言模型数据污染的系统分析
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了MM-Detect框架,旨在解决多模态大语言模型训练中的数据污染问题。实验结果表明,该框架能够有效识别数据污染,并揭示训练集泄漏对模型性能的影响。
🎯
关键要点
- 本研究提出了MM-Detect框架,旨在解决多模态大语言模型训练中的数据污染问题。
- MM-Detect能够有效识别不同程度的数据污染。
- 研究揭示了训练集泄漏对模型性能的显著影响。
- 该框架为研究污染在预训练和微调阶段引入的途径提供了新的见解。
➡️