ICL 一致性测试
📝
内容提要
通过在 GenBench 合作基准任务中引入 ICL 一致性测试,我们对适应任务的通过提示方法(如上下文学习)的大型语言模型执行预测的一致性进行了评估,并发现所有测试的 LLM 模型均缺乏强健的泛化能力。
🏷️
通过在 GenBench 合作基准任务中引入 ICL 一致性测试,我们对适应任务的通过提示方法(如上下文学习)的大型语言模型执行预测的一致性进行了评估,并发现所有测试的 LLM 模型均缺乏强健的泛化能力。