小红花·文摘 - 小红花技术领袖俱乐部

研究发现，OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

研究发现，OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

The New Stack ·

本文研究了对现代大型语言模型（LLMs）在编码任务中的对抗性示例攻击的影响，并提出了基于提示的防御措施，实验证明对抗性示例具有可转移性，削弱了LLMs的性能，提出的防御措施显示出改善模型韧性的潜力。

往返翻译防御大型语言模型越狱攻击

BriefGPT - AI 论文速递 ·

本文研究了对现代大型语言模型（LLMs）在编码任务中的对抗性示例攻击的影响，并提出了基于提示的防御措施，实验证明对抗性示例具有可转移性，削弱了LLMs的性能，提出的防御措施显示出改善模型韧性的潜力。

为漏洞检测优化大型语言模型

BriefGPT - AI 论文速递 ·

本文研究了对大型语言模型（LLMs）的编码任务的对抗性扰动的影响，并提出了基于提示的防御措施。实验证明，对抗性示例具有可转移性，削弱了LLMs的性能。提出的防御措施显示出改善模型韧性的潜力。

评估大型语言模型安全性的因果分析

BriefGPT - AI 论文速递 ·