本研究提出HERO框架,通过在线人反馈提高模型学习效率,解决高成本或困难场景中的问题。在体部异常纠正任务中,HERO比现有方法高效4倍,并能以0.5K反馈处理推理、计数和个性化任务。
完成下面两步后,将自动完成登录并继续当前操作。