小红花·文摘

AI系统与用户兴趣相协调需要理解和融入人类的价值观和偏好。OPEN框架利用贝叶斯最优实验设计指导选择信息丰富的问题，并利用语言模型提取特征和转化为自然语言问题。OPEN在偏好获取方面优于现有的方法。

学习提出有信息量的问题：利用偏好优化和期望信息增益增强 LLM

BriefGPT - AI 论文速递 ·

本文提出了一种利用贝叶斯最优实验设计思想指导选择状态-动作对查询以达到高效学习的方法。算法在每次迭代中最大化获取函数，选择提供最多信息的状态-动作对进行查询，从而获得高效的数据驱动强化学习方法。在多个连续控制问题上的实验中，相比于基于模型或无模型的RL基线方法，本文方法学习出的最优策略所需样本量减少了5-1000倍。

一种基于差异驱动强化学习的量子态制备方法

BriefGPT - AI 论文速递 ·