本研究提出一种结合偏好优化和强化学习的递归学习方法,提升小型语言模型的推理能力和反思性。通过动态知识图谱和自我教学,模型不断提高推理质量,特别在生物材料科学领域展现出强大的适应性和应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。