本研究提出“可移植的奖励调优”(PRT)原则,以解决基础模型因知识过时而需频繁微调的问题。实验结果表明,基于PRT的模型在视觉和语言任务上具有与现有方法相当的准确性,同时降低了推理成本。
完成下面两步后,将自动完成登录并继续当前操作。