小红花·文摘

本文探讨了前置提示工程（pPE）在强化微调中的应用，结果显示pPE训练的模型性能优于iPE，尤其是null-example pPE方法表现最佳，为RFT研究提供了新方向。