3DBench：可扩展的 3D 基准测试和指令调优数据集

原文约500字，阅读约需1分钟。发表于：。

评估多模态大型语言模型（MLLMs）的性能，集成点云和语言，面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步，从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench，提供了一个全面评估 MLLMs 的可扩展平台，以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围，涉及感知和规划任务，并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集，总共涵盖了 10 个多模态任务，共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异，我们展示了 3DBench 的优越性，为当前的局限性和潜在研究方向提供了有价值的见解。

本文介绍了3DBench，一个可扩展的3D基准测试和大规模指令调整数据集，用于评估多模态大型语言模型（MLLMs）的性能。通过实验评估和与现有数据集的比较，展示了3DBench的优越性。