本研究提出了PredictaBoard基准测试框架,旨在评估大型语言模型(LLM)在常识推理任务中的得分可预测性,强调可预测性在安全部署AI系统中的重要性,为降低风险和提高可靠性提供新方向。
完成下面两步后,将自动完成登录并继续当前操作。