你能有多毒?基于搜索的大型语言模型毒性测试

📝

内容提要

本研究针对大型语言模型(LLMs)在生成有毒回应时可能造成的社会危害,提出了一种新的自动化测试框架EvoTox,以定量评估其毒性倾向。通过迭代演化策略,EvoTox能有效检测LLMs在对齐后的残留毒性水平,研究结果显示该框架的效果明显优于传统方法,并具有较低的成本开销,表明其在评估和改进LLMs的安全性上的潜在影响。

🏷️

标签

➡️

继续阅读