小红花·文摘

本研究提出“可移植的奖励调优”（PRT）原则，以解决基础模型因知识过时而需频繁微调的问题。实验结果表明，基于PRT的模型在视觉和语言任务上具有与现有方法相当的准确性，同时降低了推理成本。