小红花·文摘

本研究提出了一种基于条件风险价值（CVaR）的变分量子优化框架，旨在优化手动感知车辆网络中的用户关联问题。该方法在资源分配上相比深度神经网络提升了23.5%的性能，显示出其在实际应用中的潜力。

CVaR-Based Variational Quantum Optimization for User Association in Handoff-Aware Vehicular Networks

BriefGPT - AI 论文速递 ·

本文研究了风险敏感的强化学习，通过固定风险容忍度最大化条件风险价值。使用CVaR RL在大规模状态空间中拓展推广CVaR RL，研究了低秩MDPs中的CVaR RL。提出了一种新颖的UCB奖励驱动算法，平衡勘探、开发和表征学习之间的相互作用。设计了离散LSVI算法作为规划预期，找到接近最优的策略。这是第一个在低秩MDPs中有效的CVaR RL算法。

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

BriefGPT - AI 论文速递 ·