本文介绍了一个新的基准FRoG,用于评估模糊推理。实验结果显示大型语言模型在处理模糊推理方面仍面临挑战,并且现有的增强推理方法在涉及模糊逻辑的任务中性能提升不一致。研究还发现大型语言模型在FRoG上的逆比例缩放效应,并证明强大的数学推理技能并不一定能在基准测试中取得成功。
完成下面两步后,将自动完成登录并继续当前操作。