本研究提出了ParaPO后训练方法,旨在减少语言模型在非敌对环境中对预训练数据的逐字复制问题。该方法通过优化模型偏好改写版本,显著降低了无意复制现象,同时保持了模型的整体效用。
完成下面两步后,将自动完成登录并继续当前操作。