小红花·文摘

PAL框架将人类偏好多样性融入预训练策略，通过学习奖励函数提高建模效率。实验证明PAL能达到竞争性奖励模型准确性，并呼吁采用更细致的数据收集方法。

BriefGPT - AI 论文速递 ·

该论文综述了情感游戏计算的最新研究现状，介绍了情感循环的四个核心阶段，并提供了一个分类体系。此外，还审查了与游戏接口、传感器、注释协议和可用语料库相关的可用情感数据收集方法。最后，讨论了情感游戏计算的限制和未来研究方向。

BriefGPT - AI 论文速递 ·