小红花·文摘

研究表明，向大型语言模型注入少量恶意文档可以植入后门，影响模型生成的信息可靠性。这种数据污染可能导致用户信任下降，AI公司面临严重后果。

少量毒样本即可污染任意规模的大型语言模型

程序师 ·

2025年圣地亚哥BSides大会：在海岸边转变风险对话

DEV Community ·

本研究提出了一种新基准测试工具，通过动态生成变体，解决了静态数据集导致的可靠性不足问题，有效评估了代码大语言模型的推理能力，结果显示在数据污染风险下仍能提供一致可靠的评估。

Dynamic Benchmarking of Reasoning Capabilities in Large Code Language Models: Challenges Under Data Contamination

BriefGPT - AI 论文速递 ·

本研究提出了AntiLeak-Bench框架，旨在通过自动构建新知识样本防止数据污染，确保大型语言模型（LLM）评估的无污染性。该框架实现了完全自动化的工作流程，显著降低了基准维护成本，有效应对数据污染问题。

AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

BriefGPT - AI 论文速递 ·

本研究提出了一种有效技术，通过分析编码电路输出，解决量子机器学习中的数据污染攻击问题。实验结果表明，该方法能显著降低模型性能，最大降幅达到92%。

Adversarial Pollution Attacks on Quantum Machine Learning Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法“熵选择与真实-合成相似性最大化”（ESRM），针对在线持续学习中的合成数据污染问题，显著提升模型性能，尤其在数据污染严重时表现尤为突出，具有重要应用价值。

Dealing with Synthetic Data Contamination in Online Continual Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种自适应偏差学习方法，有效解决了视觉异常检测在数据污染下的性能下降问题。该方法在MVTec和VisA数据集上表现出色，展现了良好的稳定性和鲁棒性。

Adaptive Bias Learning for Visual Anomaly Detection under Data Contamination

BriefGPT - AI 论文速递 ·

本研究提出了新方法ConTAM，分析大规模语言模型中的数据污染问题，发现其影响超出预期，且不同模型受污染的影响各异，为未来研究提供了建议。

评估大规模语言模型中的数据污染：我们如何衡量以及何时重要？

BriefGPT - AI 论文速递 ·

本研究提出了MM-Detect框架，旨在解决多模态大语言模型训练中的数据污染问题。实验结果表明，该框架能够有效识别数据污染，并揭示训练集泄漏对模型性能的影响。

文本与图像都泄漏了！对多模态大语言模型数据污染的系统分析

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在评估中面临的数据污染问题，特别是训练与评估数据重叠的影响。通过审查47篇论文，发现现有检测方法在某些假设下表现接近随机，强调了明确假设和验证有效性的重要性。

Is Data Contamination Detection Effective for Large Language Models? An Investigation and Evaluation of Assumptions

BriefGPT - AI 论文速递 ·

实习生代码投毒事件震惊ByteDance：恶意攻击如何利用AI大模型漏洞颠覆数千万美元的损失

硕鼠的博客站 ·

本文探讨了大型语言模型（LLM）中的数据污染问题，提出了识别和评估污染的方法，如Clean-Eval和CDD。研究表明，LLM在零样本和小样本任务中可能受到训练数据污染的影响，强调了独立污染评估的必要性。此外，提出了MMStar基准以评估多模态能力，并探讨了基准数据污染的挑战及解决方案。

受污染视觉语言模型的清洁评估

BriefGPT - AI 论文速递 ·

本文研究了测试时适应（TTA）中的对抗风险，提出了新的数据污染假设和攻击方法。研究表明，在缺乏良性样本的情况下，TTA仍能抵御对抗攻击，并提出了有效的防御策略，为开发更鲁棒的TTA方法奠定基础。

The Adversarial Risks of Test Time Adaptation: An Investigation into Realistic Test-Time Data Poisoning

BriefGPT - AI 论文速递 ·

本文介绍了BloombergGPT，一个在金融数据上训练的500亿参数语言模型。研究显示，该模型在金融任务和通用基准测试中表现优异，并探讨了数据污染问题及其对基准测试的影响。此外，研究评估了大型语言模型的公平性和诚实性，提出了改进建议，并展示了其在金融文档标注中的应用潜力。

BeanCounter：低毒性、大规模和开放的商业导向文本数据集

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）面临数据污染问题，影响其性能评估。研究提出了一种通过扰动数据集实例来检测污染的方法，实验结果表明该方法在多个数据集上有效，提升了检测准确性。文章还探讨了污染对模型评估的影响及未来研究方向，强调了确保LLMs评估可靠性的必要性。

针对现代大型语言模型的数据污染检测：局限性、不一致性和挑战

BriefGPT - AI 论文速递 ·

本文研究了预训练语言模型在数学推理中的能力，发现模型对高频词语的推理更为准确，并探讨了多语种环境下的推理能力。通过设计训练数据和分析错误类型，提升了模型的自检能力。同时，研究揭示了数据污染对模型性能的影响，强调了严格评估推理过程的重要性，为未来数学推理能力的发展提供了方向。

语言模型的物理学：第二部分2.2，如何从小学数学问题的错误中学习

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的安全性评估与对抗攻击，分析了其脆弱性及防御策略。研究表明，仅需1%的数据样本即可成功毒化模型，并提出了新型数据污染攻击和梯度引导的后门触发器学习方法。重点关注Prompt Hacking和对抗攻击，强调保护LLMs免受威胁的重要性，并提出创新防御策略以提高模型的鲁棒性。

检测人工智能缺陷：针对语言模型内部缺陷的目标驱动攻击

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）中的数据污染问题，提出了一种新方法来检测和量化污染。研究发现训练数据中存在下游任务的测试数据，影响模型性能。通过设计测验和扰动数据集，评估了污染对模型的影响，强调了独立评估数据污染的重要性。研究结果为理解LLMs的性能提供了新见解，并提出了改进检测和减轻污染的方法。

评估大型语言模型中的污染：引入LogProber方法

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型中的数据污染攻击，提出了一种新方法以识别和规避这些攻击。实验表明，仅使用1%的数据样本即可成功毒化模型，影响用户隐私。研究还总结了机器学习领域的相关文献，分析了现有防御的不足，并提出改进建议。

LLMs 中的数据投毒的缩放规律

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型中的数据污染问题，分析了不同类型的污染对模型在自然语言处理任务（如摘要生成和问答）性能的影响。研究提出了污染分类法，并强调了独立评估的重要性，以提高模型的可靠性和准确性。

2024 CONDA 共享任务的数据污染报告

BriefGPT - AI 论文速递 ·