小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究表明,向大型语言模型注入少量恶意文档可以植入后门,影响模型生成的信息可靠性。这种数据污染可能导致用户信任下降,AI公司面临严重后果。

少量毒样本即可污染任意规模的大型语言模型

程序师
程序师 · 2025-10-13T01:25:03Z
2025年圣地亚哥BSides大会:在海岸边转变风险对话

圣地亚哥BSides大会吸引了700多名网络安全专家,讨论了风险管理的新方法,强调灵活性和沟通。演讲者分享了数据污染、加密风险和漏洞狩猎的见解,呼吁更新风险对话,关注业务成果而非技术细节。

2025年圣地亚哥BSides大会:在海岸边转变风险对话

DEV Community
DEV Community · 2025-04-11T16:13:28Z

本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。

Dynamic Benchmarking of Reasoning Capabilities in Large Code Language Models: Challenges Under Data Contamination

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了AntiLeak-Bench框架,旨在通过自动构建新知识样本防止数据污染,确保大型语言模型(LLM)评估的无污染性。该框架实现了完全自动化的工作流程,显著降低了基准维护成本,有效应对数据污染问题。

AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出了一种有效技术,通过分析编码电路输出,解决量子机器学习中的数据污染攻击问题。实验结果表明,该方法能显著降低模型性能,最大降幅达到92%。

Adversarial Pollution Attacks on Quantum Machine Learning Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出了一种新方法“熵选择与真实-合成相似性最大化”(ESRM),针对在线持续学习中的合成数据污染问题,显著提升模型性能,尤其在数据污染严重时表现尤为突出,具有重要应用价值。

Dealing with Synthetic Data Contamination in Online Continual Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出了一种自适应偏差学习方法,有效解决了视觉异常检测在数据污染下的性能下降问题。该方法在MVTec和VisA数据集上表现出色,展现了良好的稳定性和鲁棒性。

Adaptive Bias Learning for Visual Anomaly Detection under Data Contamination

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了新方法ConTAM,分析大规模语言模型中的数据污染问题,发现其影响超出预期,且不同模型受污染的影响各异,为未来研究提供了建议。

评估大规模语言模型中的数据污染:我们如何衡量以及何时重要?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了MM-Detect框架,旨在解决多模态大语言模型训练中的数据污染问题。实验结果表明,该框架能够有效识别数据污染,并揭示训练集泄漏对模型性能的影响。

文本与图像都泄漏了!对多模态大语言模型数据污染的系统分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究探讨了大型语言模型(LLMs)在评估中面临的数据污染问题,特别是训练与评估数据重叠的影响。通过审查47篇论文,发现现有检测方法在某些假设下表现接近随机,强调了明确假设和验证有效性的重要性。

Is Data Contamination Detection Effective for Large Language Models? An Investigation and Evaluation of Assumptions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z
实习生代码投毒事件震惊ByteDance:恶意攻击如何利用AI大模型漏洞颠覆数千万美元的损失

字节跳动的AI大模型被实习生植入恶意代码,导致训练数据污染和模型评估不稳定,损失数千万美元。事件暴露了人员管理和系统安全性的问题,未来与AIGC合作需确保过程和结果的可控性。

实习生代码投毒事件震惊ByteDance:恶意攻击如何利用AI大模型漏洞颠覆数千万美元的损失

硕鼠的博客站
硕鼠的博客站 · 2024-10-22T01:10:48Z

本文探讨了大型语言模型(LLM)中的数据污染问题,提出了识别和评估污染的方法,如Clean-Eval和CDD。研究表明,LLM在零样本和小样本任务中可能受到训练数据污染的影响,强调了独立污染评估的必要性。此外,提出了MMStar基准以评估多模态能力,并探讨了基准数据污染的挑战及解决方案。

受污染视觉语言模型的清洁评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文研究了测试时适应(TTA)中的对抗风险,提出了新的数据污染假设和攻击方法。研究表明,在缺乏良性样本的情况下,TTA仍能抵御对抗攻击,并提出了有效的防御策略,为开发更鲁棒的TTA方法奠定基础。

The Adversarial Risks of Test Time Adaptation: An Investigation into Realistic Test-Time Data Poisoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文介绍了BloombergGPT,一个在金融数据上训练的500亿参数语言模型。研究显示,该模型在金融任务和通用基准测试中表现优异,并探讨了数据污染问题及其对基准测试的影响。此外,研究评估了大型语言模型的公平性和诚实性,提出了改进建议,并展示了其在金融文档标注中的应用潜力。

BeanCounter:低毒性、大规模和开放的商业导向文本数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

大型语言模型(LLMs)面临数据污染问题,影响其性能评估。研究提出了一种通过扰动数据集实例来检测污染的方法,实验结果表明该方法在多个数据集上有效,提升了检测准确性。文章还探讨了污染对模型评估的影响及未来研究方向,强调了确保LLMs评估可靠性的必要性。

针对现代大型语言模型的数据污染检测:局限性、不一致性和挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

本文研究了预训练语言模型在数学推理中的能力,发现模型对高频词语的推理更为准确,并探讨了多语种环境下的推理能力。通过设计训练数据和分析错误类型,提升了模型的自检能力。同时,研究揭示了数据污染对模型性能的影响,强调了严格评估推理过程的重要性,为未来数学推理能力的发展提供了方向。

语言模型的物理学:第二部分2.2,如何从小学数学问题的错误中学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文探讨了大型语言模型(LLMs)的安全性评估与对抗攻击,分析了其脆弱性及防御策略。研究表明,仅需1%的数据样本即可成功毒化模型,并提出了新型数据污染攻击和梯度引导的后门触发器学习方法。重点关注Prompt Hacking和对抗攻击,强调保护LLMs免受威胁的重要性,并提出创新防御策略以提高模型的鲁棒性。

检测人工智能缺陷:针对语言模型内部缺陷的目标驱动攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文探讨了大型语言模型(LLMs)中的数据污染问题,提出了一种新方法来检测和量化污染。研究发现训练数据中存在下游任务的测试数据,影响模型性能。通过设计测验和扰动数据集,评估了污染对模型的影响,强调了独立评估数据污染的重要性。研究结果为理解LLMs的性能提供了新见解,并提出了改进检测和减轻污染的方法。

评估大型语言模型中的污染:引入LogProber方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z

本研究探讨了大型语言模型中的数据污染攻击,提出了一种新方法以识别和规避这些攻击。实验表明,仅使用1%的数据样本即可成功毒化模型,影响用户隐私。研究还总结了机器学习领域的相关文献,分析了现有防御的不足,并提出改进建议。

LLMs 中的数据投毒的缩放规律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-06T00:00:00Z

本文探讨了大型语言模型中的数据污染问题,分析了不同类型的污染对模型在自然语言处理任务(如摘要生成和问答)性能的影响。研究提出了污染分类法,并强调了独立评估的重要性,以提高模型的可靠性和准确性。

2024 CONDA 共享任务的数据污染报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码