小红花·文摘

本研究提出了一种新颖的启发式框架，通过历史探索数据和手动任务描述，优化大型语言模型的奖励设计。实验结果表明，该框架在强化学习任务中表现出有效性和稳定性，具有实际应用潜力。