基于小批量随机梯度下降的库存系统学习元策略
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对现有库存控制中目标库存水平不可行的问题,提出了一种新颖的小批量随机梯度下降元策略,灵活适用于一般库存管理框架。研究表明,该元策略在多产品、多约束系统等复杂场景中表现出较低的悔恨界限和高效的计算能力,具有广泛的应用潜力和显著的性能优势。
本论文研究了强化学习在库存管理中的应用,通过Vapnik-Chervonenkis理论证明了学习库存策略的泛化保证,并提出了“学得越少越好”的原则。建议引入基准库存和库存位置的概念。