基于 LLMs 的中国常识推理基准评估：从中国特定性到推理记忆相关性

原文约400字，阅读约需1分钟。发表于：。

我们介绍了 CHARM，这是首个全面深入地评估大型语言模型（LLMs）在中文常识推理能力方面的基准。我们利用 5 个代表性的提示策略对 CHARM 进行评估，发现语言模型的语言定位和任务领域会影响提示策略的效果，这丰富了以前的研究结果。我们构建了紧密相连的推理和记忆任务，发现一些语言模型在记忆中文常识方面遇到困难，影响其推理能力，而其他模型在相似的记忆表现下呈现不同的推理能力。我们还评估了语言模型在无记忆推理能力上的表现，并分析了典型错误。我们的研究准确地确定了语言模型的优势和劣势，并为优化提供了明确的方向。它还可以为其他领域的研究提供参考。我们将在此 URL 发布 CHARM。

该文章介绍了首个中文语言模型CHARM在常识推理能力方面的评估。通过5个提示策略的评估发现，语言模型的语言定位和任务领域会影响提示策略的效果。研究还发现一些模型在记忆中文常识方面遇到困难，影响其推理能力。同时，对语言模型在无记忆推理能力上的表现进行了评估和分析。该研究准确确定了语言模型的优势和劣势，并为优化提供了明确的方向。

CHARM 中文语言模型常识推理能力提示策略记忆中文常识

Dify.AI	观测云
LigaAI	eolink

基于 LLMs 的中国常识推理基准评估：从中国特定性到推理记忆相关性

验证