小红花·文摘

本研究提出HERO框架，通过在线人反馈提高模型学习效率，解决高成本或困难场景中的问题。在体部异常纠正任务中，HERO比现有方法高效4倍，并能以0.5K反馈处理推理、计数和个性化任务。