小红花·文摘

该文章介绍了首个中文语言模型CHARM在常识推理能力方面的评估。通过5个提示策略的评估发现，语言模型的语言定位和任务领域会影响提示策略的效果。研究还发现一些模型在记忆中文常识方面遇到困难，影响其推理能力。同时，对语言模型在无记忆推理能力上的表现进行了评估和分析。该研究准确确定了语言模型的优势和劣势，并为优化提供了明确的方向。