REBUS: 理解符号的稳健评估基准
原文中文,约500字,阅读约需1分钟。发表于: 。我们提出了一个新的基准,用于评估多模态大型语言模型在谜题上的表现。该数据集包含 333 个原始的图像类文字游戏示例,包括电影、作曲家、主要城市和食物等 13 个类别。为了在评估被提示的单词或短语的基准上取得良好的性能,模型必须结合图像识别和字符串处理,进行假设检验、多步推理和对人类认知的理解,从而进行复杂的多模态能力评估。我们发现,专有模型如 GPT-4V 和 Gemini Pro...
该研究提出了一个新的基准,用于评估多模态大型语言模型在谜题上的表现。研究发现,专有模型如GPT-4V和Gemini Pro在测试中表现优异,但最好的模型准确率仅为24%。此外,模型对谜题的理解和解释能力也有待改进。该基准测试可以用于识别多模态大型语言模型在知识和推理方面的不足之处。