小红花·文摘

本研究提出了一种创新的数据驱动方法，将大型语言模型代理从反应式转变为主动协助。通过收集人类活动数据生成任务预测，并训练奖励模型，经过微调的模型在主动提供协助方面取得了66.47%的F1得分，显著提升了代理系统的效能。