大规模语言模型的对抗性搜索引擎优化
原文中文,约400字,阅读约需1分钟。发表于: 。大语言模型(LLM)被越来越多地应用于模型在选择竞争的第三方内容方面,比如 LLM 驱动的搜索引擎或聊天机器人插件。本文介绍了一种新的攻击类型 —— 偏好操纵攻击,可以通过精心编写的网站内容或插件文档来误导 LLM 以提升攻击者产品的地位并贬低竞争对手,从而增加用户流量和变现。我们展示了这种攻击导致囚徒困境,其中所有各方都有动机发动攻击,但是整体效果会降低 LLM...
本文介绍了一种新的攻击类型——偏好操纵攻击,通过精心编写的网站内容或插件文档来误导大语言模型(LLM),提升攻击者产品地位并贬低竞争对手,增加用户流量和变现。预计偏好操纵攻击将成为重大威胁。