基于选民的随机拒绝方法框架在渐进安全的语言模型输出中的应用

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种利用大型语言模型(LLM)的随机性来防止输出不安全或质量低的新方法。通过投票机制,重新生成直到足够多的检查者同意。提出了成本和故障率的估算器,并根据实验数据提出了一种在最少成本下实现所需故障率的算法。证明了该算法选择投票者数量和门槛时,故障率会以成本的指数函数递减,并且即使数据有限,这些模型也能合理估计系统实际性能。

🎯

关键要点

  • 本文提出了一种利用大型语言模型(LLM)的随机性来防止输出不安全或质量低的新方法。
  • 系统中,LLM 检查者对生成的输出的可接受性进行投票,若未达到认可阈值,则重新生成,直到足够多的检查者同意。
  • 提出了成本和故障率的估算器,并根据实验数据提出了一种在最少成本下实现所需故障率的算法。
  • 证明了该算法选择投票者数量和门槛时,故障率会以成本的指数函数递减。
  • 即使数据有限,这些模型也能合理估计系统实际性能。
➡️

继续阅读