小红花·文摘

本文介绍了一个新的基准FRoG，用于评估模糊推理。实验结果显示大型语言模型在处理模糊推理方面仍面临挑战，并且现有的增强推理方法在涉及模糊逻辑的任务中性能提升不一致。研究还发现大型语言模型在FRoG上的逆比例缩放效应，并证明强大的数学推理技能并不一定能在基准测试中取得成功。