小红花·文摘

本研究发现现有的无监督环境设计方法在选择训练数据的问题上并未超越简单的领域随机化基线，需要大量超参数调优。通过直接针对高学习性级别进行训练，研究表明这种直观的方法在多个二元输出环境中表现优于现有方法和领域随机化，提升了学习的有效性。