小红花·文摘

本文介绍了一种新型的上下文随机双层优化（CSBO）框架，扩展了经典模型，考虑上下文信息和多个追随者的响应。提出了一种基于多层蒙特卡罗技术的高效双循环梯度方法，解决了现有方法的收敛问题，并在元学习等领域展示了优越性。数值实验验证了理论结果。