小红花·文摘 - 小红花技术领袖俱乐部

本研究提出自我调节微调（SBT）框架，旨在解决大型推理模型的过度思考问题。该方法通过内部调节推理过程，减少冗余推理，降低计算开销，令牌消耗减少高达60%，同时保持准确性。

Let Large Language Models Break Free from Overthinking via Self-Regulated Optimization

BriefGPT - AI 论文速递 ·

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

机器之心 ·

本研究提出PSPO*方法，旨在解决大型语言模型在推理任务中的逻辑错误和冗余推理问题。通过系统化流程和非线性奖励，显著提升推理的准确性和效率。实验结果表明，该方法在六个数学推理数据集上优于主流模型。

PSPO*: 一种有效的过程监督政策优化方法用于推理对齐

BriefGPT - AI 论文速递 ·