本研究提出了一种新颖的启发式框架,通过历史探索数据和手动任务描述,优化大型语言模型的奖励设计。实验结果表明,该框架在强化学习任务中表现出有效性和稳定性,具有实际应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。