用于能源从扩散波的强化学习控制器的函数逼近

原文约600字，阅读约需2分钟。发表于：。

工业多发电机波浪能转换器（WEC）需要处理来自不同方向的多个同时波浪，这些复杂设备在挑战性环境下需要同时追求能量捕获效率、结构应力减少以限制维护和主动保护免受高波浪影响的多目标控制器；本文采用 Proximal Policy Optimization (PPO) 算法训练的多智能体强化学习（MARL）控制器可以处理这些复杂性，通过研究不同函数逼近方法，我们发现这是提高性能的关键；我们研究了全连接神经网络（FCN）、LSTM 和 Transformer 模型的各种变种，并发现本文提出的具有适度深度、在多头注意力、多层感知机和 Transformer 块（STrXL）周围具有门控残差连接的 Transformer 模型是最佳选择，在处理这些复杂的多方向波浪中提高了 22.1％的能源效率，相比现有的弹簧阻尼器（SD）控制器；此外，与默认的 SD 控制器不同，Transformer 控制器几乎消除了旋转偏航运动产生的机械应力。

研究了工业多发电机波浪能转换器的多目标控制器，使用Proximal Policy Optimization算法训练的多智能体强化学习控制器，能够处理来自不同方向的多个同时波浪。研究发现，具有适度深度、多头注意力、多层感知机和门控残差连接的Transformer模型是最佳选择，能够提高22.1%的能源效率。与现有的弹簧阻尼器控制器相比，Transformer控制器几乎消除了旋转偏航运动产生的机械应力。

Proximal Policy Optimization算法 Transformer模型函数多智能体强化学习控制器多目标控制器强化学习控制器能源效率

用于能源从扩散波的强化学习控制器的函数逼近

验证