小红花·文摘

本研究提出了PredictaBoard基准测试框架，旨在评估大型语言模型（LLM）在常识推理任务中的得分可预测性，强调可预测性在安全部署AI系统中的重要性，为降低风险和提高可靠性提供新方向。