小红花·文摘

本研究提出了一种新的递归学习方法PRefLexOR，结合偏好优化与强化学习，以提升小型语言模型的推理深度和反思性。通过动态知识图谱，模型能够自我教学，迭代提升推理质量，尤其在生物材料科学领域展现出强大的适应性和应用潜力。