本研究提出了一种结合双向思维链与奖励机制的新训练方法,以提升大型语言模型在中国非物质文化遗产领域的问答能力。实验结果表明,该方法在准确性和评估指标上显著优于现有方法,为未来模型训练提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。