小红花·文摘

本研究探讨了大型语言模型（LLMs）在推理和组合能力方面的局限性，并提出通过上下文评估其推理能力。结果表明，LLMs在75%的数据集上能够生成类人类的反应，但仍需改进，为理解和提升LLMs的表现提供了重要见解。