相同的问题,不同的措辞:一种用于提示稳健性的潜在对抗框架
📝
内容提要
本研究解决了大型语言模型在面对语义等价但表达方式不同的提示时性能显著下降的问题。提出的潜在对抗释义框架(LAP)通过双循环对抗方式,学习可扰动的潜在连续释义,同时保持语义,通过实验展示了在RobustAlpaca基准上,该方法在最坏情况下的胜率提升幅度为0.5%-4%。
➡️
本研究解决了大型语言模型在面对语义等价但表达方式不同的提示时性能显著下降的问题。提出的潜在对抗释义框架(LAP)通过双循环对抗方式,学习可扰动的潜在连续释义,同时保持语义,通过实验展示了在RobustAlpaca基准上,该方法在最坏情况下的胜率提升幅度为0.5%-4%。