本研究探讨大型语言模型(LLMs)的推理能力,提出KUMO评估框架,结合LLMs与符号引擎,动态生成推理任务。结果表明,LLMs在简单推理任务上超越大学生,而在复杂任务中表现相当,验证了KUMO的有效性。
本研究使用符号引擎探讨了在潜空间中逼近多个数学运算的可能性,并分析了每个范式在神经编码器实例化时的特性。研究发现多运算范式对于区分不同的运算符很重要,而对于单一运算的结论可以在原始表达式编码器中实现。架构选择对训练动态、结构组织和泛化能力有显著影响,导致不同范式和编码器类别之间存在显著变化。
完成下面两步后,将自动完成登录并继续当前操作。