本研究探讨了大型语言模型基准评估中的内在随机性问题,提出了一种层次统计模型,以提高基准分数的准确性并减少方差。同时,引入基于正确率的提示级别难度评分,以增强错误检测和质量控制。
完成下面两步后,将自动完成登录并继续当前操作。