小红花·文摘

研究改进了基准测试StepGame，发现GPT在映射自然语言文本到空间关系方面表现优势，但在多跳推理方面有局限性。通过模板映射和逻辑推理相结合，提供了完美解决方案，显著提高了准确性。研究揭示了模型不足，并提出增强措施。