交通游戏:对(多模式)大型语言模型的交通知识进行基准评估
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了 TransportationGames,这是一个经过精心设计和全面评估的基准测试,用于评估 (多模态) 大规模语言模型在交通领域中的性能,并发现尽管某些模型在某些任务中表现良好,但整体上仍有很大的改进空间。我们希望 TransportationGames 的发布能够成为未来研究的基础,加速 (多模态) 大规模语言模型在交通领域中的实施和应用。
大型语言模型(LLMs)在知识密集型任务上表现出色,但在复杂推理和领域特定事实中仍有挑战。KGQuiz是一个基于知识的评估框架,用于分析不同领域和任务格式下LLMs的性能变化,并改进其在广泛知识领域和任务中的能力。