立场:在少于几百个数据点的LLM评估中不要使用中心极限定理
📝
内容提要
本研究解决了在小数据集条件下评估大语言模型(LLM)时,使用中心极限定理(CLT)作为不确定性量化方法的局限性。论文提出了更适合小型专门基准的替代频率学和贝叶斯方法,并展示了CLT方法在这些场景中通常严重低估不确定性的问题。研究的关键发现是,推荐的替代方法能够提供更可靠的性能评估,助力提高LLM评估的准确性。
🏷️
标签
➡️