Eureka:通过编码大型语言模型实现与人类水平的奖励设计
原文中文,约500字,阅读约需1分钟。发表于: 。Eureka 是一个由 LLMs 支持的人类级奖励设计算法,通过利用 GPT-4 等最先进的 LLMs 的无需提示、代码编写和条件改进能力,进行奖励代码的进化优化,从而生成可用于强化学习的复杂技能获取奖励函数。在一个多样的包含 10 个不同机器人形态的 29 个开源强化学习环境中,Eureka 在 83%的任务上超过了人类专家,在平均标准化改进率为 52%。Eureka...
Eureka是一种由LLMs支持的奖励设计算法,利用GPT-4等最先进的LLMs进行奖励代码的进化优化,生成可用于强化学习的复杂技能获取奖励函数。Eureka在多个开源强化学习环境中表现优异,通用性强,可用于人类反馈进行无梯度的上下文学习。