小红花·文摘

从混合到专业领域的语言模型优化分割

Apple Machine Learning Research ·

本研究提出了一种新的推理基准NPPC，旨在解决现有基准测试中的崩溃和攻击问题。NPPC能够有效降低大语言模型的性能，并提供分析工具，以支持人工通用智能的测试与发展。

非确定性多项式时间问题挑战：为大语言模型提供不断扩展的推理基准

BriefGPT - AI 论文速递 ·

本文讨论了大型语言模型（LLM）在面对常识问题时的推理能力崩溃，研究强调了当前推理基准无法充分反映模型的真实推理能力和弱点，需要开发新的推理基准。

大模型缺乏基本推理能力？

极道 ·

本文介绍了多个几何问题求解模型和数据集的进展，包括Geo170K、GeoQA和GAPS等。研究表明，GAPS模型在几何问题解决上表现优越，特别是在证明任务中达到97.5%的准确率。此外，FGeo-P定理预测器显著提高了解决率。通过构建UniGeo和GeoEval基准，评估了大型语言模型在几何推理中的表现，发现其在复杂问题上的能力仍需提升。

GOLD: 几何问题解决器与自然语言描述

BriefGPT - AI 论文速递 ·