小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨了机器学习服务中的模型提取攻击对隐私和可解释性的影响。通过差分隐私技术,研究了不同策略在模型训练和生成对比解释中的应用,结果表明合理运用差分隐私策略可有效提升隐私保护与可解释性,同时保持良好的预测性能。

On the Interplay of Explainability, Privacy, and Predictive Performance with Explanation-Assisted Model Extraction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

在人工智能领域中,保护大型语言模型的知识产权变得关键。研究人员提出了一种新方法,在语言模型中嵌入可学习的语言水印,以追踪和防止模型提取攻击。该方法在鲁棒性和输出质量之间取得了平衡,并保留了模型的原始性能。

大型语言模型是否能够防止生成受版权保护的文本并隐藏训练数据?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z

在人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越重要。研究人员提出了一种新方法,在LLMs中嵌入可学习的语言水印,以追踪和防止模型提取攻击。该方法通过微妙地修改LLM的输出分布,嵌入可统计辨识的水印,平衡了鲁棒性和输出质量,并保留了LLM的原始性能。

城市积水检测:一个具有挑战性的基准和大小模型相互适配器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

嵌入式作为一种服务(EaaS)是自然语言处理(NLP)下游任务中广泛采用的特征提取解决方案。然而,先前的研究表明,EaaS可能容易受到模型提取攻击的影响。为了减轻这个问题,提出了一种新的CSE(聚类、选择、消除)攻击方法,以在保持嵌入式效率的同时去除水印。引入了一种名为WARDEN的新协议,通过整合多个可能的水印方向,使水印去除更加困难。实证证据表明,WARDEN有效地抵御了CSE攻击,并显著增加了水印的隐蔽性。

WARDEN:多向背门数字水印用于嵌入式服务版权保护

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-03T00:00:00Z

该研究探讨了针对机器学习即服务提供商所提供的API进行模型提取攻击的动机和实际意义。攻击者往往无法节约数据采集和标注成本,并且攻击成功与攻击者的先验知识密切相关。因此,对于预算有限的攻击者而言,模型提取攻击的实际意义值得商榷。研究提出了一种评估攻击策略的基准方案,明确将先验知识的影响与攻击策略分离。

超越标签神谕:窃取机器学习模型的意义是什么?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码