本研究提出了一种层次统计模型,以解决大型语言模型基准评估中的内在随机性问题。通过多代生成提高分数估计的准确性,降低方差,并引入基于正确率的提示级别难度评分,以增强错误检测和质量控制。
完成下面两步后,将自动完成登录并继续当前操作。