小红花·文摘

本文提出了一种新方案，解决人工智能对齐问题，特别是在聚合多样化人类偏好方面。研究基于新发布的urn过程，开发了适应用户情境的偏好聚合策略，以克服现有强化学习方法的局限性，提升AI系统的推荐能力。