语言智能体旨在通过自身经验学习超越人类,但目前依赖专家数据微调,导致扩展性和泛化能力不足。Meta提出“早期经验”范式,通过智能体自身行为生成交互数据,作为监督信号,促进强化学习与模仿学习的结合。
Yambda-5B是一个包含50亿事件的公开数据集,反映真实用户行为。尽管现有数据集在规模和多样性上有限,Yambda-5B提供了更丰富的用户交互数据,促进了研究与实际应用的结合。
完成下面两步后,将自动完成登录并继续当前操作。