BriefGPT - AI 论文速递 ·

Improving Chain-of-Thought Reasoning through Direct Preference Optimization in Self-Training

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文提出了一种名为Step-DPO的方法，通过优化推理步骤而非整体答案，显著提高大型语言模型在数学推理任务中的准确性。实验结果显示，模型在MATH和GSM8K测试集上表现优异，超越多种闭源模型。此外，研究探讨了训练与推理的权衡，为提升模型性能提供了新见解。

🎯

关键要点

提出了一种名为Step-DPO的方法，通过优化推理步骤而非整体答案，提高大型语言模型在数学推理任务中的准确性。
实验表明，使用10K个偏好数据对和少于500个Step-DPO训练步骤，模型在MATH方面的准确性提高近3%。
Step-DPO在Qwen2-72B-Instruct模型上，在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数，超越多种闭源模型。
研究探讨了训练与推理的权衡，为提升模型性能提供了新见解。
通过蒙特卡洛树搜索（MCTS）收集偏好数据，结合结果验证和逐步自我评估，增强中间步骤的一致性。
提出了一种新的DPO损失函数，以缓解低质量响应和约束处理方面的权衡问题。
引入了基于规划的推理学习框架，解决大型语言模型在复杂推理任务中的问题，提高生成推理过程的可靠性和可信度。
通过优化竞争产生的Chain-of-Thought候选项之间的优先级，改进推理任务的性能。
使用偏好优化方法提高语言模型的推理性能，提出数字损坏和弱语言模型提示的补充方案，显著提高准确性。
引入迭代的长度正则化DPO（iLR-DPO），解决冗长问题，并验证其在与GPT-4相媲美的性能上的有效性。

❓

延伸问答

Step-DPO方法是如何提高数学推理准确性的？

Step-DPO通过优化推理步骤而非整体答案，显著提高大型语言模型在数学推理任务中的准确性。

在MATH和GSM8K测试集上，Step-DPO的表现如何？

Step-DPO在Qwen2-72B-Instruct模型上，在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数，超越多种闭源模型。

如何收集偏好数据以支持Step-DPO方法？

通过蒙特卡洛树搜索（MCTS）收集偏好数据，结合结果验证和逐步自我评估，增强中间步骤的一致性。

Step-DPO方法在训练与推理之间的权衡是什么？

研究探讨了训练与推理的权衡，为提升模型性能提供了新见解。

Step-DPO方法如何解决低质量响应的问题？

提出了一种新的DPO损失函数，以缓解低质量响应和约束处理方面的权衡问题。

iLR-DPO在Step-DPO中有什么作用？

iLR-DPO解决冗长问题，并验证其在与GPT-4相媲美的性能上的有效性。

🏷️

标签

Step-DPO 大型语言模型推理步骤数学推理模型性能

➡️

继续阅读

Google's AlphaEvolve Reaches General Availability with Evolutionary Code Optimization as a Service
Google's AlphaEvolve reached general availability on the Gemini Enterpris...
Scaling document classification to 100k+ labels
Across Databricks, thousands of customers build production workloads that map...
Claude Fable 5 vs. Kimi K3: Same results, one-third the cost, 4x slower
Moonshot AI released Kimi K3 in mid-July, selling it as a serious professiona...
Amazon, Microsoft, and Google are converging on the same enterprise agent architecture
Over the past nine months, Amazon, Microsoft, and Google have each introduced...
Judge pauses Paramount’s attempt to buy Warner Bros. Discovery
A judge partially granted the request from a dozen state attorneys general to...
Anthropic employees worked “literally around the clock” to keep Fable 5 from disappearing
After weeks of extending temporary access while bringing additional inference...