小红花·文摘

本研究强调区分推理标记与模式化标记的重要性，采用Shuffle-Aware Discriminator (SHAD)和新微调方法（RFT），显著提升大型语言模型的性能。