本研究探讨大型语言模型(LLMs)对提示敏感性的变化,提出ProSA框架来评估这一现象。引入新的敏感性度量标准PromptSensiScore,发现模型敏感性在不同数据集和模型间波动,大型模型展现出更强的鲁棒性,为提高用户满意度和评估准确性提供了重要工具。
完成下面两步后,将自动完成登录并继续当前操作。