时间会说明一切:通过输出令牌计数对大型语言模型的时序侧信道
📝
内容提要
本论文解决了通过大型语言模型的输出令牌数量提取推理输入敏感信息的新型侧信道问题。该研究展示了攻击者如何在机器翻译和分类任务中利用此侧信道实现信息恢复,实验表明在多个模型中,攻击者能以超过75%的准确率恢复翻译任务中的目标语言,并能以超过70%的准确率泄露文本分类任务中的输入类别。最后,提出了针对输出令牌计数侧信道的多种缓解策略。
➡️