本研究质疑了指令调优中“强模型是好教师”的假设,实验表明更强的模型并不总能有效指导小模型。提出的新度量“兼容性调整奖励(CAR)”表现优于现有基线。
本研究通过模拟情境实现了弱模型监督使用强模型的能力扩展,探讨了先进的监督策略和偏好学习。结果显示该方法在可靠性和超级对齐方面具有潜力。
我们提出了超对齐的新研究方向,并展示了初步结果:利用深度学习的泛化特性来控制强模型与弱监督者的关系。
完成下面两步后,将自动完成登录并继续当前操作。