小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究表明,向大型语言模型注入少量恶意文档可以植入后门,影响模型生成的信息可靠性。这种数据污染可能导致用户信任下降,AI公司面临严重后果。

少量毒样本即可污染任意规模的大型语言模型

程序师
程序师 · 2025-10-13T01:25:03Z
2025年圣地亚哥BSides大会:在海岸边转变风险对话

圣地亚哥BSides大会吸引了700多名网络安全专家,讨论了风险管理的新方法,强调灵活性和沟通。演讲者分享了数据污染、加密风险和漏洞狩猎的见解,呼吁更新风险对话,关注业务成果而非技术细节。

2025年圣地亚哥BSides大会:在海岸边转变风险对话

DEV Community
DEV Community · 2025-04-11T16:13:28Z

本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。

Dynamic Benchmarking of Reasoning Capabilities in Large Code Language Models: Challenges Under Data Contamination

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了AntiLeak-Bench框架,旨在解决数据污染对大型语言模型评估的影响,通过引入新知识样本确保评估的纯净性,从而降低基准维护成本。

反泄漏基准:通过自动构建具有更新现实世界知识的基准来防止数据污染

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出了GAMEBoT,一个评估大语言模型推理能力的平台。通过模块化子问题和链式思维提示,提升了推理过程的透明度和可验证性,有效避免了数据污染。

超越结果:LLM在游戏中推理的透明评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出了一种有效技术,通过分析编码电路输出,解决量子机器学习中的数据污染攻击问题。实验结果表明,该方法能显著降低模型性能,最大降幅达到92%。

量子机器学习模型的对抗性污染攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出了一种自适应偏差学习方法,有效解决了视觉异常检测在数据污染下的性能下降问题。该方法在MVTec和VisA数据集上表现出色,展现了良好的稳定性和鲁棒性。

针对数据污染的视觉异常检测的自适应偏差学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了新方法ConTAM,分析大规模语言模型中的数据污染问题,发现其影响超出预期,且不同模型受污染的影响各异,为未来研究提供了建议。

评估大规模语言模型中的数据污染:我们如何衡量以及何时重要?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了MM-Detect框架,旨在解决多模态大语言模型训练中的数据污染问题。实验结果表明,该框架能够有效识别数据污染,并揭示训练集泄漏对模型性能的影响。

文本与图像都泄漏了!对多模态大语言模型数据污染的系统分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种融合框架SpecRaGE,结合图拉普拉斯方法与深度学习,旨在解决多视角表示学习的泛化与可扩展性问题。实验结果表明,SpecRaGE在数据污染情况下优于现有方法。

SpecRaGE:鲁棒且可推广的多视角光谱表示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究探讨了大型语言模型(LLMs)在评估中面临的数据污染问题,特别是训练与评估数据重叠的影响。通过审查47篇论文,发现现有检测方法在某些假设下表现接近随机,强调了明确假设和验证有效性的重要性。

Is Data Contamination Detection Effective for Large Language Models? An Investigation and Evaluation of Assumptions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z
实习生代码投毒事件震惊ByteDance:恶意攻击如何利用AI大模型漏洞颠覆数千万美元的损失

字节跳动的AI大模型被实习生植入恶意代码,导致训练数据污染和模型评估不稳定,损失数千万美元。事件暴露了人员管理和系统安全性的问题,未来与AIGC合作需确保过程和结果的可控性。

实习生代码投毒事件震惊ByteDance:恶意攻击如何利用AI大模型漏洞颠覆数千万美元的损失

硕鼠的博客站
硕鼠的博客站 · 2024-10-22T01:10:48Z

该论文综述了大型语言模型的安全性和脆弱性,涉及对抗攻击、数据污染和隐私问题。研究分析了这些攻击对模型完整性和用户信任的影响,并深入探讨了防御机制,旨在引起AI社区的关注和解决方案。

大型语言模型的持续预训练攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

该论文综述了大型语言模型的安全性和脆弱性,涉及对抗性攻击、数据污染和隐私问题。研究分析了这些攻击对模型完整性和用户信任的影响,并深入探讨了防御机制,旨在引起人工智能社区关注并推动解决方案。

基于本体驱动的论证实现大型语言模型的对抗鲁棒性保障

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文研究了测试时适应中的对抗风险,提出了新的数据污染假设和攻击方法。发现即使没有良性样本,TTA仍具鲁棒性,并提出了有效的防御策略,为更鲁棒的TTA方法开发奠定基础。

测试时适应的对抗风险:对现实测试时数据污染的调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本研究通过提供包含明确意图的示例、代码片段和单元测试的新型数据集,解决了开发者缺乏高质量编码示例的问题。该数据集减少了数据污染,提高了模型在特定编码任务上的表现,促进了模型微调和评估的进步。

CodeInsight: 从 Stack Overflow 精心策划的实用编码解决方案数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

这篇文章介绍了一个长文本理解的基准测试XL2Bench,包含三个场景和四个难度递增的任务。六个大型语言模型在XL2Bench上的表现落后于人类水平。原始数据集和增强数据集上的性能下降验证了缓解数据污染的方法的有效性。

侦探QA:评估侦探小说中的长文脉络推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

该文章介绍了一个长文本理解的基准测试,评估了六个大型语言模型在该测试上的表现,发现它们的性能落后于人类水平。作者还观察到在原始数据集和增强数据集上的性能下降,强调了缓解数据污染的方法的有效性。

MMLongBench-Doc: 用视觉化评估长上下文文档理解技术的基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

这篇文章介绍了一个长文本理解的基准测试,包含三个场景和四个难度递增的任务。六个大型语言模型在测试中的性能落后于人类水平。原始数据集和增强数据集上的性能下降验证了缓解数据污染的方法的有效性。

长代码竞技场:长上下文代码模型的一组基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

这篇文章介绍了一个长文本理解的基准测试,包含三个场景和四个难度递增的任务。六个大型语言模型在测试中的性能落后于人类水平。原始数据集和增强数据集上的性能下降验证了缓解数据污染的方法的有效性。

XLand-100B:大规模多任务数据集用于背景强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码