小红花·文摘

研究人员提出了一种新技术，用于表示异构处理受限代理。该技术通过共享策略学习和代理技能水平的分布，实现了从严格效用最大化到有界理性行为的过渡。该模型使用策略梯度来学习行为，并在多个实例中证明了在常见代理设置下具有显著改进的预测能力。