研究表明,向大型语言模型注入少量恶意文档可以植入后门,影响模型生成的信息可靠性。这种数据污染可能导致用户信任下降,AI公司面临严重后果。
圣地亚哥BSides大会吸引了700多名网络安全专家,讨论了风险管理的新方法,强调灵活性和沟通。演讲者分享了数据污染、加密风险和漏洞狩猎的见解,呼吁更新风险对话,关注业务成果而非技术细节。
本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。
本研究提出了AntiLeak-Bench框架,旨在解决数据污染对大型语言模型评估的影响,通过引入新知识样本确保评估的纯净性,从而降低基准维护成本。
本研究提出了GAMEBoT,一个评估大语言模型推理能力的平台。通过模块化子问题和链式思维提示,提升了推理过程的透明度和可验证性,有效避免了数据污染。
本研究提出了一种有效技术,通过分析编码电路输出,解决量子机器学习中的数据污染攻击问题。实验结果表明,该方法能显著降低模型性能,最大降幅达到92%。
本研究提出了一种自适应偏差学习方法,有效解决了视觉异常检测在数据污染下的性能下降问题。该方法在MVTec和VisA数据集上表现出色,展现了良好的稳定性和鲁棒性。
本研究提出了新方法ConTAM,分析大规模语言模型中的数据污染问题,发现其影响超出预期,且不同模型受污染的影响各异,为未来研究提供了建议。
本研究提出了MM-Detect框架,旨在解决多模态大语言模型训练中的数据污染问题。实验结果表明,该框架能够有效识别数据污染,并揭示训练集泄漏对模型性能的影响。
本研究提出了一种融合框架SpecRaGE,结合图拉普拉斯方法与深度学习,旨在解决多视角表示学习的泛化与可扩展性问题。实验结果表明,SpecRaGE在数据污染情况下优于现有方法。
本研究探讨了大型语言模型(LLMs)在评估中面临的数据污染问题,特别是训练与评估数据重叠的影响。通过审查47篇论文,发现现有检测方法在某些假设下表现接近随机,强调了明确假设和验证有效性的重要性。
字节跳动的AI大模型被实习生植入恶意代码,导致训练数据污染和模型评估不稳定,损失数千万美元。事件暴露了人员管理和系统安全性的问题,未来与AIGC合作需确保过程和结果的可控性。
该论文综述了大型语言模型的安全性和脆弱性,涉及对抗攻击、数据污染和隐私问题。研究分析了这些攻击对模型完整性和用户信任的影响,并深入探讨了防御机制,旨在引起AI社区的关注和解决方案。
该论文综述了大型语言模型的安全性和脆弱性,涉及对抗性攻击、数据污染和隐私问题。研究分析了这些攻击对模型完整性和用户信任的影响,并深入探讨了防御机制,旨在引起人工智能社区关注并推动解决方案。
本文研究了测试时适应中的对抗风险,提出了新的数据污染假设和攻击方法。发现即使没有良性样本,TTA仍具鲁棒性,并提出了有效的防御策略,为更鲁棒的TTA方法开发奠定基础。
本研究通过提供包含明确意图的示例、代码片段和单元测试的新型数据集,解决了开发者缺乏高质量编码示例的问题。该数据集减少了数据污染,提高了模型在特定编码任务上的表现,促进了模型微调和评估的进步。
这篇文章介绍了一个长文本理解的基准测试XL2Bench,包含三个场景和四个难度递增的任务。六个大型语言模型在XL2Bench上的表现落后于人类水平。原始数据集和增强数据集上的性能下降验证了缓解数据污染的方法的有效性。
该文章介绍了一个长文本理解的基准测试,评估了六个大型语言模型在该测试上的表现,发现它们的性能落后于人类水平。作者还观察到在原始数据集和增强数据集上的性能下降,强调了缓解数据污染的方法的有效性。
这篇文章介绍了一个长文本理解的基准测试,包含三个场景和四个难度递增的任务。六个大型语言模型在测试中的性能落后于人类水平。原始数据集和增强数据集上的性能下降验证了缓解数据污染的方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。