本研究提出了TelePlanNet框架,以提高5G网络基站选址的效率。该框架结合三层架构与增强学习,实现了多目标优化,规划一致性提升至78%,显著优于传统方法。
本研究提出了一种多游戏目标回报优化器(MTRO)算法,能够利用离线数据集自动确定游戏目标回报,从而简化配置过程。实验结果表明,MTRO显著提升了增强学习策略在多种游戏中的表现,促进了自主代理的发展。
该研究提出了一种新方法,结合稳定扩散的想象网络和增强学习,有效利用视觉信息,显著提升多模态翻译效果。
本研究提出了一种名为ELEMENT的多尺度增强学习框架,旨在解决长期探索中的回报消失和高计算成本问题。通过引入情节最大熵优化和新内在奖励,显著提升了探索效率,展现出良好的适应性和性能。
本文介绍了CodeUltraFeedback,一个包含10,000个复杂指令的数据集,用于评估大型语言模型与用户编码偏好的对齐。通过AI反馈和增强学习,CodeLlama-7B-Instruct在CODAL-Bench上超越了34B模型,验证了其实用性并提升了功能正确性,为模型对齐和代码智能的发展奠定了基础。
本研究提出了一种新方法RL-V2V-GAN,旨在解决视频到视频合成中的有限标记数据问题。该方法通过增强学习实现源视频到目标视频的映射,同时保持源视频的风格。实验结果表明,在少样本学习条件下,该方法能够生成时序一致的视频。
本文提出了一种基于增强学习的交通信号控制方法CityLight,采用MAPPO框架实现多个智能体的协同控制,显著提升交通效率。实验结果显示,整体性能提高11.66%,迁移场景吞吐量提升22.59%。
大型语言模型在少样本学习中表现出色,通过上下文示例学习,无需更新权重。扩展的上下文窗口支持多样本学习,提升生成和判别任务性能。为解决人类示例不足,研究了增强和无监督多样本学习。增强方法用模型生成示例,无监督方法仅用领域问题提示。这些方法在复杂推理任务中有效,能覆盖预训练偏差。分析指出下一个标记预测损失的局限性。
深度生成人工智能通过最大似然估计训练生成模型,但难以完全满足用户需求。增强学习作为替代方案,通过注入新信号训练模型,更灵活且能遵循人类偏好,拓展了生成人工智能的边界。本文综述了该领域的应用,特别关注大规模语言模型的发展和未来方向。
深度生成AI在文本生成和计算机视觉中备受关注。最大似然估计用于训练生成模型,但不完全满足用户需求。增强学习通过引入新信号和遵循人类偏好,拓展了生成AI的边界。本文综述了增强学习在模型设计和应用中的作用,特别是在大规模语言模型的发展中,并探讨了生成AI的潜在方向。
本文研究了增强学习中的稀疏表示,通过比较标准神经网络和具有稀疏性质的神经网络,在控制策略学习中证明了稀疏表示的有效性。同时,提出了一种名为“分布式正则化器”的方法来鼓励隐藏节点的激活匹配分布,从而产生稀疏的激活状态。
深度生成人工智能是机器学习社区中的重要话题之一。增强学习通过创建新目标注入新的训练信号,能够从多个角度遵循人类的归纳偏好。本综述提供了一个高级别的综述,涵盖了广泛的应用领域和大规模语言模型领域。
本研究提出了一种新的增强学习方法,称为近端策略优化(PPO),通过与环境交互采样数据并使用随机梯度上升优化“替代”目标函数。实验结果表明,PPO在模拟机器人运动和Atari视频游戏等任务上表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率方面取得了平衡。
基于弱监督的增强学习系统用于局部化,通过引入新的奖励定义,训练控制器函数定位图像中感兴趣的区域,并利用预训练的二元分类器生成的非二进制分类概率。在临床前列腺多参数磁共振图像的大型数据集上评估,方法优于多实例学习和完全监督基线,仅使用图像级别的分类标签进行训练,与完全监督学习表现相当。
SecRepair是一个多用途的代码漏洞分析系统,利用CodeGen2语言模型帮助开发人员识别和生成修复后的代码,并提供漏洞描述和代码评论。研究结果表明,结合增强学习和语义奖励机制可以提高模型在处理代码漏洞方面的能力和效果。
深度生成人工智能是机器学习社区中的重要话题之一。增强学习通过创建新目标注入新的训练信号,能够灵活地遵循人类归纳偏好。本综述提供了一个高级别的综述,涵盖了广泛的应用领域和大规模语言模型领域。
该文介绍了一种新颖的生存分析流程,使用改进的生存堆叠模型将生存分析问题转化为分类问题,并使用 ControlBurn 进行特征选择,最终使用可解释的增强学习机器生成可解释的预测结果。该流程在预测心力衰竭的风险方面实现了最先进的性能,并提供了关于心力衰竭风险因素的有趣且新颖的见解。
本文介绍了应用RL/DRL实现网络运营中的自主智能体,并提出了名为CyGIL的训练环境,旨在从仿真到现实实现自主智能体应用。
本文介绍了一种基于物体为中心示范实现的软机械手训练方法,使用增强学习技术和新算法,在 RBO Hand 2 上应用后,取得了开/关阀门、滑珠和抓取等任务的良好表现。
VIM是一种增强学习框架,可应用于机器人应用中,使机器人能够学习各种灵活的低级技能,实现任务的平滑过渡和性能对齐。该框架是第一个允许机器人使用单一控制器同时学习多种灵活运动任务的工作。
完成下面两步后,将自动完成登录并继续当前操作。