ICL 一致性测试

📝

内容提要

通过在 GenBench 合作基准任务中引入 ICL 一致性测试,我们对适应任务的通过提示方法(如上下文学习)的大型语言模型执行预测的一致性进行了评估,并发现所有测试的 LLM 模型均缺乏强健的泛化能力。

🏷️

标签

➡️

继续阅读