小红花·文摘

RL_Matrix是一个为.NET开发者设计的强化学习框架，基于TorchSharp，支持多种算法（如DQN、PPO），具备高性能和类型安全，适合游戏和工业应用，能有效减少实验迭代次数，提高开发效率。

C# 的深度强化学习框架RL_Matrix

dotNET跨平台 ·

RL_Matrix 是一个为 .NET 开发者设计的强化学习框架，基于 TorchSharp，支持多种算法（如 DQN、PPO），具备高性能和类型安全，适合游戏开发和机器人控制，优化了开发效率和实时决策。

C# 的深度强化学习框架RL_Matrix - 张善友

张善友 ·

为Cartpole-v1实现PPO

DEV Community ·

本研究解决了现有探索方法普遍性不足和计算成本高的问题，提出了一种简单高效的探索方法β-DQN，通过行为函数β来增强标准DQN。实验结果表明，β-DQN在多种任务中表现出色，有效提升了深度强化学习中的探索能力。

β-DQN：通过行为演化改善深度Q学习

BriefGPT - AI 论文速递 ·

人工智能在幻想体育中胜过人类：深度学习系统显示团队选择提高15%

DEV Community ·

使用DQN构建国际象棋代理

DEV Community ·

本研究比较了深度强化学习中的PPO和DQN在作物管理中的表现，结果显示PPO在施肥和灌溉任务中优于DQN，而DQN在混合管理任务中表现最佳，为优化作物管理策略提供了重要见解。

深度强化学习在作物生产管理中的比较研究

BriefGPT - AI 论文速递 ·

本文介绍了RDAC框架，解决了连续学习算法中的稳定性和可塑性之间的权衡问题。验证实验结果表明，该算法在保持稳定性的同时没有明显损失可塑性。研究为现有连续学习算法提供了有价值的见解，并为新的连续学习方法铺平了道路。同时，研究提供了对生物系统中学习诱导的激活/表示变化与稳定性-可塑性困境以及再现漂移问题的新视角。

通过课程驱动的持续DQN扩展缓解自适应列车调度中的稳定性-可塑性困境

BriefGPT - AI 论文速递 ·

本文研究了终身强化学习中的关键问题，发现DQN和Soft Actor Critic方法在只有百分之一的实验数据用于超参数调整的情况下表现不佳，而保持网络可塑性的算法措施表现出色。

针对未知情况的调整：重新审视终身强化学习的评估策略

BriefGPT - AI 论文速递 ·

基于深度 Q 网络的弱注释方法，实现对多个灾害相关数据流的同时摘要，无需人工注释或内容重新排序，并有效处理跨流内容重叠，优于 CrisisFACTS 2022 基准的最佳模型。

DQNC2S: 基於 DQN 的跨媒體危機事件摘要器

BriefGPT - AI 论文速递 ·

本文研究了图神经网络在自我对战强化学习中的应用。结果显示，图神经网络在处理长距离依赖和降低过拟合方面具有优势，但在辨别局部模式方面不如卷积神经网络。这表明在自我对战强化学习中，使用游戏特定结构可能会改变学习的范式。

从图像到连接：DQN 与 GNN 能否学习 Hex 的战略游戏？

BriefGPT - AI 论文速递 ·

本文研究使用深度神经网络解决逼近真实世界复杂度的强化学习问题。实验结果表明，逐渐增加折扣因子值可以显著降低 DQN 学习步骤的数量。同时，结合变动的学习率使用，优于原始 DQN。在学习过程中可能陷入局部最优解的可能性，与探索 / 利用困境相关。

揭开面纱：释放 Q 学习中的深度之力

BriefGPT - AI 论文速递 ·

本文简要介绍了DQN算法的定义、模型、经验回放和智能体的定义，讨论了训练和测试的过程，并给出了参数设置和绘制奖励曲线的方法。

深度Q网络：DQN项目实战CartPole-v0

华为云官方博客 ·

强化学习是机器学习的一个分支，通过环境反馈优化模型。Q-learning维护Q值表，Sarsa确保探索性，DQN结合神经网络解决状态枚举问题。该技术在自动驾驶和机器人等领域应用广泛，值得深入研究。

强化学习简介

informal ·

TensorFlow2教程，TensorFlow2.0教程，TensorFlow 2.0 入门系列文章，第八篇，强化学习 DQN (Deep Q-Learning) 玩转 OpenAI gym game MountainCar-v0。

TensorFlow 2.0 (八) - 强化学习 DQN 玩转 gym Mountain Car

极客兔兔 ·

OpenAI Baselines: DQN

OpenAI ·