小红花·文摘

本研究探讨了大型语言模型基准评估中的内在随机性问题，提出了一种层次统计模型，以提高基准分数的准确性并减少方差。同时，引入基于正确率的提示级别难度评分，以增强错误检测和质量控制。