本研究提出了一种名为GeoGen的管道,旨在提升多模态大语言模型在几何问题解决中的能力。GeoGen结合符号推理与多模态模型,能够自动生成几何图形的逐步推理路径,从而显著改善模型在几何推理任务中的表现。
该研究提出了逆思维链(R-CoT)生成管道,解决了大型多模态模型在几何推理中缺乏高质量图像文本配对数据的问题,显著提升了模型在MathVista和GeoQA数据集上的表现。
本研究提出几何约定,通过多层图和多智能体系统框架,提升大语言模型(LLMs)对复杂物理世界的理解,发现LLMs能够在统一约定下进行多步骤几何推理。
本文介绍了GeoQA数据集和神经几何求解器NGS,旨在提高几何问题的解答准确性。研究开发了多模态模型,并评估其在几何推理中的表现,发现现有模型在处理复杂几何问题时存在不足。提出DFE-GPS框架,通过合成数据集SynthGeo228K显著提升了模型的几何理解能力,推动了多模态模型的发展。
本文介绍了多种神经渲染方法,如MVSNeRF、NeRFusion和SparseNeuS,旨在通过稀疏视图重建高质量3D场景。这些方法结合几何推理和图像特征,提高了重建速度和质量。此外,提出的可泛化神经辐射场(GPF)和Omni-Recon框架展示了在不同3D任务中的应用潜力,推动了神经场技术的发展。
该论文介绍了KiloGram和GeoEval基准测试,评估大型语言模型和多模态模型在几何数学推理中的能力。研究发现,当前模型在复杂几何问题和多步推理方面表现不佳。提出EAGLE框架以提升几何推理能力,显示出显著改进。
本文介绍了LlaMA-Adapter V2及其在多模态推理中的应用,指出大型语言模型(LLMs)在几何推理方面的局限性。研究创建了Geo170K数据集和GeoEval基准测试,以评估LLMs解决几何数学问题的能力,发现模型在复杂问题上的表现不佳。为改善推理能力,提出了基于LLMs的多智能体系统框架,并引入MathVerse基准测试以深入分析多模态模型的表现。
该论文介绍了一系列基于神经辐射场(NeRF)的三维重建和新视角合成方法,涵盖几何推理、样本优化和高效渲染技术,显著提升了重建质量和渲染效率,适用于多种数据集。
该研究探讨了大型语言模型(LLMs)在几何推理中的应用,提出了Geo170K数据集、G-LLaVA和LI3D等新模型,旨在提升3D场景生成和几何问题解决能力。尽管LLMs在数学任务中表现良好,但在几何推理上仍面临挑战,研究强调了多智能体系统在增强推理能力方面的重要性。
这篇论文研究了大型语言模型(LLMs)在数学推理和空间关系表示中的能力,特别是在几何推理和符号复杂度方面的挑战。实验表明,LLMs在处理空间结构时存在变异性,并提出了基于多智能体系统的框架以提升其推理能力。同时,研究还探讨了神经网络在数学推理中的应用及其局限性。
本文介绍了一种新方法,使大型语言模型(LLM)能够处理可缩放矢量图形(SVG)格式的图像,旨在弥合视觉与文本模态的鸿沟。通过图像分类和生成,展示了该方法在鉴别性和生成性任务上的潜力及其鲁棒性。同时,研究评估了视觉语言模型(VLMs)在几何推理中的表现,发现其在视觉演绎推理方面仍有提升空间。
本文提出了一种基于条件去噪扩散过程的单张RGB图像三维重建方法,能够生成高分辨率的稀疏几何形状,并自然生成多个一致形状。该方法结合几何推理和2D投影优化,显著提升了三维重建的质量和性能。
本研究提出了结构化知识的几何推理方法,使用 Knowledge Crosswords 进行实验,附加了两种新方法,结果表明 Verify-All 方法在性能上大幅优于其他方法,并且对于困难问题更加稳健。但LLMs在结构化知识的几何推理能力仍不够强大,易受影响。
本研究提出了结构化知识的几何推理方法,使用 Knowledge Crosswords 进行实验,附加了两种新方法,结果表明 Verify-All 方法在性能上大幅优于其他方法,并且对于困难问题更加稳健。但LLMs在结构化知识的几何推理能力仍不够强大或完美。
完成下面两步后,将自动完成登录并继续当前操作。