唐格拉姆:几何元素识别的挑战性基准
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对大型多模态模型在几何元素识别中的能力不足,提出了唐格拉姆基准,用于评估模型的相关性能。研究发现,即使是基本的计数任务,当前主流模型在准确性上仍与人类存在显著差距,最高准确率仅为56.8%,揭示了现有多模态人工智能系统在基本感知任务中的局限性。
最近的大型语言模型和多模态模型在解决几何数学问题方面的能力尚未得到深入评估。研究人员引入了GeoEval基准测试,评估了十个模型,发现WizardMath模型在主子集上的准确率达到55.67%,但在困难子集上只有6.00%的准确率。研究结果表明,GPT系列模型在重新表述问题上表现更有效。