融合双向思维链与奖励机制的提升大语言模型问答能力的方法

本文旨在解决使用非物质文化遗产数据微调大型语言模型时面临的偏见、知识继承错误和灾难性遗忘问题。提出了一种新颖的训练方法，结合双向思维链和奖励机制，能够在增强模型的推理能力的同时，提高生成答案的准确性。实验证明，该方法在多个领域具有良好的适应性，并显著提升模型的问答性能。

本研究提出了一种新训练方法，结合双向思维链和奖励机制，以解决大型语言模型在非物质文化遗产领域的偏见和遗忘问题。实验结果表明，该方法在问答任务中显著优于现有技术，具有良好的适应性，为未来模型训练提供了新思路。