小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种基于规则的强化学习方法，以解决大型推理模型在训练中推理能力不足的问题。经过5000个逻辑问题的训练，模型在数学基准测试中表现出良好的泛化能力。

Logical Reinforcement Learning: A Rule-Based Approach to Unlocking the Reasoning Capabilities of Large Language Models

BriefGPT - AI 论文速递 ·

通过扭曲序列蒙特卡洛实现数学问题的逐步推理

通过扭曲序列蒙特卡洛实现数学问题的逐步推理

Apple Machine Learning Research ·

本研究创建了一个奥林匹克级数学基准，用于挑战大型语言模型。基准包含4428个经过严格注释的竞赛题，涵盖33个领域和10个难度等级。研究表明，即使是最先进的模型在高难度数学问题上仍有困难。

Universal Mathematics: A General Olympic-Level Mathematics Benchmark for Large Language Models

BriefGPT - AI 论文速递 ·