小红花·文摘

本研究提出了一种量子自然策略梯度（QNPG）算法，旨在解决无模型量子强化学习问题。该算法通过确定性梯度估计，显著提高了样本复杂性至$ ilde{ ext{O}}(oldsymbol{ ext{ε}}^{-1.5})$，优于经典下界$ ilde{ ext{O}}(oldsymbol{ ext{ε}}^{-2})$。