小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

文章讨论了大语言模型(LLMs)在应对对抗性扰动时的缺陷,强调在金融、法律和医疗等关键领域部署时需要更强的防御机制。评论者建议研究应包括人类的比较,以验证模型的推理能力。尽管人类和LLMs在处理信息时存在相似之处,但LLMs的表现仍需改进,以避免被无关信息分散注意力。

用猫干扰推理大模型:面向推理模型的查询无关对抗触发方法

程序师
程序师 · 2025-07-30T13:58:28Z

本研究提出LipsLev方法,旨在提高文本分类器在对抗性扰动下的鲁棒性。该方法计算卷积分类器的Lipschitz常数,在AG-News数据集上实现了38.80%的验证准确率,并提升了速度达4个数量级。

Certified Robustness Based on Bounded Levenshtein Distance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了一种新方法,通过将生成建模任务转化为潜在空间中的分类任务,增强深度神经网络在对抗性扰动下的鲁棒性。实验结果显示,该模型在多个数据集上表现优异,尤其在大扰动情况下,验证准确度提高了5.3%。

Robust Representation Consistency Model through Contrastive Denoising

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z

本文分析了深层网络对抗性扰动的不稳定性,提出了分类器鲁棒性的理论框架,并建立了鲁棒性的上限。研究表明,尽管分类器准确率高,但在小区分能力任务中仍缺乏对抗性鲁棒性。此外,探讨了网络入侵检测系统中的对抗性攻击及其防御策略,强调了机器学习模型在面对对抗样本时的脆弱性。

引入扰动能力评分(PS)以增强机器学习网络入侵检测系统对规避对抗攻击的鲁棒性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本文提出了一种通用框架,通过学习图像与目标标签的关系生成对抗性扰动。研究展示了多种生成对抗网络(GAN)方法,如AdvGAN和MalGAN,提升了对抗样本的生成效率和攻击成功率,并提出了Defense-GAN等防御策略,有效抵御对抗性攻击。

任何目标均可成为攻击:通过广义潜在感染生成对抗性样本

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

本文介绍了一种新型增量学习方法,通过对抗性扰动估计特征漂移,避免灾难性遗忘。该方法在多个基准测试中表现优异,能够自然地加入新类别并保持旧类别的表示,显著提高了模型的准确性和稳定性。

通过可学习漂移补偿进行无示例持续表示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

本文提出了一种新的训练算法,通过计算神经网络的Lipschitz常数,增强深度分类器对抗性扰动的鲁棒性。实验证明该算法在MNIST、CIFAR-10和Tiny-ImageNet数据集上表现优越,并分析了输入数据篡改对模型的影响,提出了有效的防御模型和训练程序,以提高网络的鲁棒性和泛化能力。

利用深度鲁棒分类器中的边缘一致性检测脆弱决策

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

本文分析了深层网络对抗性扰动的不稳定性,提出了分类器鲁棒性的理论框架及上限。研究发现,分类器在小区分能力任务中对抗性扰动不具鲁棒性,尽管其准确率较高。通过增加规范化可以缓解这一问题,并提出了轻量级策略和新型鲁棒性分类模型,展示了其在不同数据集上的有效性。

揭秘神经网络的对抗脆弱性之路

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-23T00:00:00Z

本文研究了对大型语言模型(LLMs)的编码任务的对抗性扰动的影响,并提出了基于提示的防御措施。实验证明,对抗性示例具有可转移性,削弱了LLMs的性能。提出的防御措施显示出改善模型韧性的潜力。

评估大型语言模型安全性的因果分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码