本研究探讨强化学习模型中行动价值的表示,指出政策梯度方法仍依赖于价值概念,建议批判性地评估基础建模假设,重新审视价值概念,这对实验研究至关重要。
本研究发现五种深度多实例学习模型未遵守标准假设,提出了算法单元测试方法来鉴别问题,并创建了合成数据集。每种评估方法都未能通过测试,为识别建模假设的违规提供了方法。
完成下面两步后,将自动完成登录并继续当前操作。