标签

 强化学习 

相关的文章:

本列表汇集了最新的强化学习研究成果,涵盖从算法优化到实际应用的多种主题,助力理解强化学习在智能系统中的重要性。

成功率可达100%,药物开发公司Cellarity联手英伟达,基于强化学习优化靶向分子

原文中文,约4900字,阅读约需12分钟。发表于:

从古至今,人类从未停止过与疾病的抗争,一款新药的出现可能挽救成千上万的生命,甚至还会延长人类的整体寿命。回顾百年药物研发史,其中不乏一些有趣的故事。比如在19世纪初,德国药剂师的助手泽尔蒂纳用热水浸泡鸦片,再以氨水抽提,从鸦片中分离出一堆白色粉末。它将这种白色粉末喂给狗,狗吃了之后很快就晕倒在地,。因此,吗啡被普遍认为是世界上首个从植物体内分离出的活性成分,也被认为是现代药物创新的起点。随后...

人类与疾病的斗争持续,新药研发历程丰富。从吗啡到阿司匹林,药物合成技术不断进步。21世纪,AI技术推动药物发现,Cellarity与英伟达提出的MOLRL方法在靶向分子优化中表现优异,提高了研发效率。

相关推荐 去reddit讨论

通过强化学习和推理扩展推动语言模型推理的进展

原文中文,约200字,阅读约需1分钟。发表于:

本研究针对大规模语言模型在复杂推理任务中的应用,提出了新的强化学习方法以改善训练效果。通过合成试错数据和增加样本多样性,我们的T1模型在数学推理基准测试中表现优异,展现出推理扩展行为。研究表明,增加推理预算可以显著提升模型性能,无需额外验证。

本研究提出了一种新型强化学习方法,旨在提升大规模语言模型在复杂推理任务中的训练效果。通过合成试错数据和增加样本多样性,T1模型在数学推理基准测试中表现出色,展现了推理扩展能力。研究表明,增加推理预算能显著提高模型性能。

相关推荐 去reddit讨论

从可解释性到可理解性:通过模型解释实现强化学习中的可理解策略

发表于:

本研究解决了深度强化学习中决策过程难以理解和信任的问题,尤其是在高风险应用中的可解释性不足。通过引入Shapley值,提出了一种新颖的模型无关的方法,将复杂的深度RL策略转化为透明的表示,显著提高了可解释性。研究结果表明,该方法不仅保持了原始模型的性能,还产生了更稳定的可解释策略。

相关推荐 去reddit讨论

AutoRestTest:一种利用大型语言模型和多智能体强化学习的自动化REST API测试工具

原文中文,约300字,阅读约需1分钟。发表于:

本研究解决了当前REST API测试工具代码覆盖率低的问题,导致故障检测不佳。通过整合语义操作依赖图(SODG)、多智能体强化学习(MARL)和大型语言模型(LLMs),提出了新工具AutoRestTest,该工具能够有效识别操作依赖参数并生成操作序列及参数组合。初步结果表明,AutoRestTest在故障检测和测试效率上具有显著提升的潜力。

本研究提出了新工具AutoRestTest,旨在解决REST API测试工具代码覆盖率低的问题。通过整合语义操作依赖图、多智能体强化学习和大型语言模型,AutoRestTest能够有效识别操作依赖参数,从而提升故障检测和测试效率。

相关推荐 去reddit讨论

带支持约束的投影隐式Q学习在离线强化学习中的应用

原文中文,约200字,阅读约需1分钟。发表于:

本研究解决了离线强化学习中由超出分布的动作引起的外推误差问题。提出了Proj-IQL算法,通过引入支持约束和矢量投影技术,优化了策略评估和改进过程。实验结果表明,Proj-IQL在D4RL基准测试中表现出色,特别是在复杂的导航领域。

本研究提出了Proj-IQL算法,解决了离线强化学习中的外推误差问题。通过支持约束和矢量投影技术,优化策略评估与改进。实验结果表明,该算法在D4RL基准测试中表现优异,尤其在复杂导航任务中。

相关推荐 去reddit讨论

多目标兼容自主驾驶的混合动作强化学习

原文中文,约300字,阅读约需1分钟。发表于:

该研究解决了现有强化学习方法在自主驾驶中的多目标兼容性问题,特别是在策略执行和策略迭代阶段。本文提出了一种多目标集成批评家强化学习方法,结合参数化动作生成混合驾驶行为,同时构建多目标批评家架构以平衡不同的驾驶目标。实验结果表明,该方法在驾驶效率、动作一致性和安全性方面表现优异,提高了驾驶的整体性能和训练效率。

该研究提出了一种多目标集成批评家强化学习方法,旨在解决自主驾驶中的多目标兼容性问题,从而提高驾驶效率、安全性和训练效果。

相关推荐 去reddit讨论

基于强化学习的对抗性学习用于有限标注数据的文本分类

原文中文,约200字,阅读约需1分钟。发表于:

本文针对文本分类任务中标注数据稀缺问题,提出了一种新颖的强化学习与对抗性学习结合的方法READ。这种方法利用未标注数据生成多样化的合成文本,从而提升模型的泛化能力。实验结果表明,READ在多个数据集上的表现超越了现有的最先进方法。

本文提出了一种名为READ的文本分类方法,结合强化学习与对抗性学习,旨在解决标注数据稀缺的问题。通过生成多样化的合成文本,提升模型的泛化能力。实验结果表明,READ在多个数据集上优于现有方法。

相关推荐 去reddit讨论

RbRL2.0:基于评级的强化学习中的奖励与策略学习的综合方法

发表于:

本研究解决了现有强化学习方法无法区分不同表现水平的信息利用不足的问题。提出了一种新颖的方法,通过对不同评级的经验进行区分和加权,来指导策略更新。这一方法通过优化综合奖励和策略损失函数,显著提高了收敛速度和整体性能,尤其在较低表现水平的惩罚上表现尤为突出。

相关推荐 去reddit讨论

从答案集进行在线归纳学习以实现高效的强化学习探索

发表于:

本研究解决了强化学习中训练性能和可解释性不足的问题,提出了一种结合归纳逻辑编程和强化学习的新方法。通过从噪声示例中学习逻辑规则,该方法在每个经验批次中形成了可解释的代理策略近似,显著提高了学习代理的探索效率,并在复杂性增加的环境中表现出优越的训练效果。

相关推荐 去reddit讨论

基于多智能体强化学习的带约束的带电粒子跟踪优化

原文中文,约200字,阅读约需1分钟。发表于:

本研究解决了粒子探测器中粒子轨迹重构的优化问题,采用带有任务分配约束的多智能体强化学习方法。研究表明,此方法通过联合最小化粒子在重构轨迹上的散射总量,显著提高了重构性能,并在优化和泛化能力上表现出优越性,尤其是在降低预测不稳定性方面。

本研究利用多智能体强化学习优化粒子探测器的轨迹重构,显著提升了重构性能并降低了预测的不稳定性。

相关推荐 去reddit讨论