本文介绍了一种通过渐进学习框架改进强模型训练数据的方法,通过有监督微调和偏好优化,显著提高了推理能力。实验证明该方法有效,为提升人工智能推理能力提供了策略。
完成下面两步后,将自动完成登录并继续当前操作。