标签

 强化学习 

相关的文章:

本列表汇集了最新的强化学习研究成果,涵盖从机器翻译到多智能体系统的应用,展示了强化学习在各领域的创新与挑战。

微电网电压调节的离线强化学习

本研究解决了在无法进行环境交互的情况下,微电网电压调节中的数据利用问题。通过采用离线强化学习算法,本文提出了一种基于已有数据集进行模型训练的新方法。实验结果表明,该方法在不同的离线数据集上均表现出有效性,尤其是在低质量经验数据集上也能实现良好表现,具有重要的应用潜力。

本研究提出了一种基于离线强化学习的微电网电压调节新方法,利用现有数据集进行模型训练。实验结果表明,该方法在不同数据集上表现出色,尤其在低质量数据集上具有良好效果,展现出重要的应用潜力。

原文中文,约400字,阅读约需1分钟。发表于:
阅读原文

ORL-LDM:离线强化学习指导的潜在扩散模型超分辨率重建

本研究解决了现有深度学习方法在处理复杂场景和保留图像细节方面的局限性。提出了一种基于强化学习的潜在扩散模型微调方法,通过在LDM模型的逆去噪过程中优化决策目标,从而显著提高超分辨率图像的质量和适应性。实验结果显示,在RESISC45数据集上,PSNR、SSIM和LPIPS有显著提升,证明该方法在复杂自然场景中的有效性。

本研究提出了一种基于强化学习的潜在扩散模型微调方法,克服了深度学习在复杂场景中的局限性,显著提升了超分辨率图像的质量。实验结果表明,在RESISC45数据集上取得了明显的改进。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文

J1:通过强化学习激励大型语言模型作为评判者的思维能力

本研究解决了人工智能评估质量不足的问题,提出了J1,一个通过强化学习训练大型语言模型以提升其判断能力的方法。研究发现,该模型在多个基准测试中表现优于现有的其他模型,证明了新颖的奖励策略能够有效激励模型思考,减少判断偏差。

本研究提出了J1模型,通过强化学习提升大型语言模型的判断能力,解决了人工智能评估质量不足的问题。研究结果显示,该模型在多个基准测试中优于现有模型,验证了新奖励策略有效激励模型思考,减少判断偏差。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文

IN-RIL:用于策略微调的交替强化学习与模仿学习

本文解决了现有模仿学习与强化学习结合方法在微调阶段的不稳定性和样本效率低下的问题。作者提出了一种新的方法IN-RIL,通过在多次强化学习更新后定期注入模仿学习更新,结合了模仿学习的稳定性和专家数据的指导,从而提高了微调过程中的探索效率。实验结果表明,IN-RIL显著提高了在多种任务中的样本效率,并有效减少了在线微调中的性能崩溃。

本文提出了一种新方法IN-RIL,旨在解决模仿学习与强化学习结合中的不稳定性和样本效率低下的问题。通过定期注入模仿学习更新,IN-RIL提高了探索效率,实验结果表明其在多任务中显著提升了样本效率,并减少了性能崩溃现象。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

通过自主车辆扩展水下声学跟踪的多智能体强化学习

本研究解决了多目标跟踪和快速不可预测运动目标的计算挑战,提出了一种迭代蒸馏方法,将高保真模拟转化为简化的GPU加速环境,同时保持高层次动态。研究结果表明,提出的方法在跟踪精度上保持误差低于5米,为自主车队控制提供了可扩展的框架,显著提升了样本效率。

本研究提出了一种迭代蒸馏方法,旨在解决多目标跟踪和快速运动目标的计算挑战,同时保持高精度(误差低于5米),为自主车队控制提供可扩展框架。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文

基于强化学习的四旋翼容错控制与在线变压器适应

本研究针对多旋翼在面临致动器故障时的快速不稳定性及任务可靠性问题,提出了一种新型的基于强化学习的容错控制框架,结合了在线变压器适应模块。该框架可以实时推断潜在表示,适应未见过的系统模型,实验结果显示其在复杂条件下的成功率高达95%,显著优于现有方法,表现出增强多旋翼适应性与可靠性的潜力。

本研究提出了一种基于强化学习的多旋翼容错控制框架,结合在线变压器适应模块,能够实时推断潜在表示并适应新系统模型。实验结果表明,该方法成功率高达95%,显著优于现有技术。

原文中文,约600字,阅读约需2分钟。发表于:
阅读原文

基于自编码器驱动的任务和新环境识别的持续强化学习

本研究解决了强化学习代理在持续学习中面临的挑战,尤其是在没有外部信号指示任务或环境变化的情况下如何保留和利用现有信息。我们提出了一种新方法,通过整合策略优化与熟悉度自编码器,展示了系统在识别和学习新任务或环境时能有效保留早期经历的知识,并在再次遇到已知环境时选择性检索相关知识的能力。初步结果表明,在没有外部信号的情况下,成功实现了持续学习,展现了该方法的潜力。

本研究提出了一种新方法,解决强化学习代理在持续学习中保留和利用现有信息的问题。通过结合策略优化与熟悉度自编码器,系统能够有效识别新任务并选择性检索相关知识,初步结果表明在无外部信号的情况下成功实现持续学习。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

自动课程学习在驾驶场景中的应用:迈向稳健高效的强化学习

本文解决了使用强化学习训练端到端自主驾驶代理所面临的挑战,尤其是有限的场景多样性对通用性和实际部署的影响。通过提出一种自动课程学习框架,动态生成与代理能力相适应的驾驶场景,从而提高了训练效率和策略的有效性,显著改善了代理在不同交通密度下的成功率和收敛速度。

本文探讨了强化学习在自主驾驶代理训练中的挑战,特别是场景多样性对通用性和部署的影响。提出了一种自动课程学习框架,能够动态生成适应代理能力的驾驶场景,从而提高训练效率和策略有效性,显著提升了代理在不同交通密度下的成功率和收敛速度。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

SEM:用于搜索高效的大型语言模型的强化学习

本研究针对大型语言模型(LLMs)在何时调用搜索引擎与何时依赖内部知识的问题进行了探索,现有强化学习方法常导致搜索行为冗余,效率低下。我们提出了SEM,一种新型后训练强化学习框架,通过构建平衡的数据集和结构化推理模板,显著减少冗余搜索操作,同时在多个基准测试中保持或提高回答准确率,提升了模型的推理效率与外部知识的使用能力。

本研究探讨大型语言模型在何种情况下调用搜索引擎与依赖内部知识,提出了一种新型后训练强化学习框架SEM,以减少冗余搜索,提高推理效率和回答准确率。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

对话推理:基于规则的强化学习激发大语言模型中的对话推理

本研究解决了现有单一推理模型在推理多样性和连贯性方面的不足,提出了一种新的对话推理范式——DialogueReason。通过引入复合问答任务和基于对话的推理方法,我们的研究表明,该方法在处理复杂问题时显著提升了模型性能,并增强了解释性和人机互动的直观性。

本研究提出了一种新的对话推理范式DialogueReason,旨在解决现有模型在推理多样性和连贯性方面的不足,从而显著提升复杂问题的处理性能。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文