小红花·文摘

本文研究了多次引导自校准对大型语言模型的影响，发现多次引导自校准明显优于单轮引导，通过在上下文学习中保证数据多样性。提出了Step-On-Feet Tuning（SOFT）用于提升零次或一次试验效果。SOFT+进一步提升了自校准的性能，实验证明了多次引导自校准在增强模型对齐性能方面的潜力。