小红花·文摘

本研究提出了一种基于强化学习的微调框架，旨在提高数据到方程任务中的领域适应性和生成方程的准确性。该方法通过优化预训练模型的生成策略，尤其在复杂数据分布下展现出显著的潜力。