小红花·文摘

本研究提出了新的基准KnowRecall和VisRecall，用于评估多模态大语言模型在不同语言间的一致性。KnowRecall关注全球地标的文化和历史知识一致性，VisRecall检验视觉记忆一致性。实验结果显示，现有模型在跨语言一致性方面仍存在困难，需要开发更具多语言和文化意识的模型。

Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本文提出了一种新的方法，通过评估LLM在不同意义的一致性来评估其理解能力，并使用多语言自我一致性作为检验模型理解力的标尺。作者以ChatGPT为例，通过在三种不同语言中评估两个不同任务的多语言一致性，发现其多语言一致性仍然不足，而其任务和世界理解力很大程度上取决于所使用的语言。该方法可以不需要任何其他语言的静态评估集，轻松、廉价地推广到不同的语言和任务中，成为未来基准评估的重要组成部分。

基于变异的一致性测试用于评估 LLMs 的代码理解能力

BriefGPT - AI 论文速递 ·

该文介绍了一种新的细粒度基准，用于推动文本条件下的三维生成模型的研究。该方法通过自动改进与形状关联的文本描述，并提出了一个量化指标来评估文本与形状的一致性。

关注词语和要点：文本到形状协调性的基准测试

BriefGPT - AI 论文速递 ·