小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了一种通过渐进学习框架改进强模型训练数据的方法，通过有监督微调和偏好优化，显著提高了推理能力。实验证明该方法有效，为提升人工智能推理能力提供了策略。

弱到强的推理

BriefGPT - AI 论文速递 ·