本文探讨了语言模型的优化分割,提出了一种通过独立预训练多个模型并利用缩放法则优化计算分配的方法。这种方法在不同模型规模和计算预算下,能有效提升模型在常识知识和推理基准上的表现。
本研究提出了一种新的推理基准NPPC,旨在解决现有基准测试中的崩溃和攻击问题。NPPC能够有效降低大语言模型的性能,并提供分析工具,以支持人工通用智能的测试与发展。
本文讨论了大型语言模型(LLM)在面对常识问题时的推理能力崩溃,研究强调了当前推理基准无法充分反映模型的真实推理能力和弱点,需要开发新的推理基准。
本文介绍了多个几何问题求解模型和数据集的进展,包括Geo170K、GeoQA和GAPS等。研究表明,GAPS模型在几何问题解决上表现优越,特别是在证明任务中达到97.5%的准确率。此外,FGeo-P定理预测器显著提高了解决率。通过构建UniGeo和GeoEval基准,评估了大型语言模型在几何推理中的表现,发现其在复杂问题上的能力仍需提升。
完成下面两步后,将自动完成登录并继续当前操作。