小红花·文摘

本文探讨了大型语言模型（LLMs）的理解能力，提出通过多语言一致性评估其性能。研究发现，LLMs在不同语言和任务中的一致性不足，理解力依赖于所用语言。文章强调理解不仅是语法操作，还涉及语义，并指出当前LLMs在常识推理方面存在显著差异，提出了评估模型理解力的新方法。

从形式到含义：利用多义一致性探测语言模型的语义深度

BriefGPT - AI 论文速递 ·

本文提出了一种新的方法，通过评估LLM在不同意义的一致性来评估其理解能力，并使用多语言自我一致性作为检验模型理解力的标尺。作者以ChatGPT为例，通过在三种不同语言中评估两个不同任务的多语言一致性，发现其多语言一致性仍然不足，而其任务和世界理解力很大程度上取决于所使用的语言。该方法可以不需要任何其他语言的静态评估集，轻松、廉价地推广到不同的语言和任务中，成为未来基准评估的重要组成部分。

基于变异的一致性测试用于评估 LLMs 的代码理解能力

BriefGPT - AI 论文速递 ·