本文研究了BRAINTEASER任务,评估模型的横向思维能力。研究表明,现有语言模型在此方面与人类存在显著差距。提出的专用模型在句子谜题中表现优异,得分达到0.98。同时分析了ChatGPT的性能差异,强调专门方法在增强人工智能创造性推理能力中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。