机器之心 ·

仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

AIxiv专栏促进了学术交流，报道超过2000篇内容。研究团队利用5000条合成数据训练了7B模型，使推理性能提升125%。该模型在逻辑推理和数学竞赛中表现优异，开源了训练代码和参数设置，并探讨了强化学习对推理能力的影响。

🎯

🔎

研究表明，强化学习（RL）在推理能力提升方面表现出色，尤其是在低数据成本的情况下。然而，RL的训练过程并不总是线性，模型的输出长度与推理性能并无直接关联，过长的思考过程可能导致反效果。因此，理解RL的局限性和适用场景是至关重要的。

使用合成的逻辑谜题作为训练数据，确保了问题的逻辑精确性和可控性。这种方法不仅减少了作弊的风险，还能有效测试模型的泛化能力。未来的研究可以考虑如何进一步优化训练数据的设计，以提升模型的推理能力。

研究发现，模型输出中思考相关词汇的频率与推理能力存在显著关联。某些词汇的使用能够提升推理性能，而其他词汇则可能导致错误。因此，关注模型输出中的语言使用，尤其是思考词汇的选择，可能是提升推理能力的一个有效策略。

❓

研究团队利用5000条合成数据训练7B模型，使推理性能提升了125%。

研究使用了合成的逻辑谜题作为训练数据，以确保问题的逻辑精确性。

强化学习不依赖数据结构，能够以低成本实现高效进化，展现出强大的泛化性。

思考相关词汇的使用频率与推理能力存在关联，某些词汇的出现能显著提高推理性能。

设计了一种几乎无法作弊的基于规则的奖励系统，仅包含格式奖励和答案奖励。

更长的输出长度并不一定代表更好的推理性能，输出长度不能作为有效指标。

🏷️