小红花·文摘

本研究提出了TelePlanNet框架，以提高5G网络基站选址的效率。该框架结合三层架构与增强学习，实现了多目标优化，规划一致性提升至78%，显著优于传统方法。

TelePlanNet：一个基于人工智能的高效电信网络规划框架

BriefGPT - AI 论文速递 ·

本研究提出了一种多游戏目标回报优化器（MTRO）算法，能够利用离线数据集自动确定游戏目标回报，从而简化配置过程。实验结果表明，MTRO显著提升了增强学习策略在多种游戏中的表现，促进了自主代理的发展。

Multi-Game Decision Transformer Target Reward Optimizer

BriefGPT - AI 论文速递 ·

该研究提出了一种新方法，结合稳定扩散的想象网络和增强学习，有效利用视觉信息，显著提升多模态翻译效果。

Making Imagination Clearer! Visual Imagination in Multimodal Machine Translation Based on Stable Diffusion

BriefGPT - AI 论文速递 ·

本研究提出了一种名为ELEMENT的多尺度增强学习框架，旨在解决长期探索中的回报消失和高计算成本问题。通过引入情节最大熵优化和新内在奖励，显著提升了探索效率，展现出良好的适应性和性能。

ELEMENT: Exploring Episodes and Lifelong Learning through Maximum Entropy

BriefGPT - AI 论文速递 ·

本研究提出了多种基于增强学习的生成模型，如PGFS、DiffSBDD和EQGAT-diff，旨在优化化学分子设计和药物发现。通过改进分子结构和合成路线，这些模型提高了生成分子的亲和力和多样性。此外，研究引入了新的奖励函数TANGO，以满足合成性要求，提升药物设计的准确性和效率。

TurboHopp：通过一致性模型加速分子主架构跳跃

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RL-V2V-GAN，旨在解决视频到视频合成中的有限标记数据问题。该方法通过增强学习实现源视频到目标视频的映射，同时保持源视频的风格。实验结果表明，在少样本学习条件下，该方法能够生成时序一致的视频。

Few-Shot Learning Video-to-Video Generative Adversarial Network Based on Policy Gradient

BriefGPT - AI 论文速递 ·

本文探讨了赋权在连续状态下的应用，利用高斯过程回归进行模型学习与预测。研究表明，赋权作为内在动机，能够帮助代理重构环境并优化行为。提出了一种结合增强学习与赋权的人机辅助方法，以提升人类控制能力。此外，介绍了基于生理模型的特工和层次赋权框架，并验证了其在模拟任务中的有效性。最后，研究了潜在规划变压器在缺乏奖励时的决策改进能力。

潜在预测赋能：无需模拟器的赋能测量

BriefGPT - AI 论文速递 ·

本文介绍了一种基于物体为中心的增强学习方法，用于训练软机械手进行复杂操作。该方法通过新算法实现示范学习，成功应用于RBO Hand 2，完成开关阀门和抓取等任务。同时，研究探讨了安全强化学习框架和模块化机器人操控平台，解决了软体机器人操作中的技能学习和硬件耐用性问题。

通过结合软硬机器人与模仿学习掌握接触丰富的任务

BriefGPT - AI 论文速递 ·

本文介绍了一种名为去噪扩散策略优化（DDPO）的算法，通过增强学习直接优化扩散模型，以提高图像质量和药物效果。研究利用人类比较数据微调模型，显著提升了视觉吸引力和文本对齐性。Diffusion-DPO方法在多个基准测试中表现优越，解决了扩散模型与人类偏好不一致的问题，并引入了新的评估指标以提高对齐效果。

SePPO：用于扩散模型对齐的半策略偏好优化

BriefGPT - AI 论文速递 ·

本文介绍了一种基于预训练模型的抗体设计方法，通过序列-结构生成和模块优化，成功生成高性能抗体。研究利用机器学习和增强学习技术，提升抗体的亲和力和结构鲁棒性，为药物发现提供新途径。

基于活跃学习的能量优化抗体设计与提升筛选效率

BriefGPT - AI 论文速递 ·

本文介绍了一种基于模型驱动的增强学习推荐系统，利用马尔可夫决策过程优化推荐策略，并通过在线模拟环境进行评估。研究提出多种强化学习框架，旨在提升推荐系统的实时性、准确性和用户参与度，强调多样性和新颖性的重要性。实验结果显示，这些方法在真实数据集上表现优异，有效解决了传统推荐系统的效率问题。

层次化强化学习在列表推荐的时间抽象中的应用

BriefGPT - AI 论文速递 ·

本研究探讨了利用增强学习和大型语言模型（LLMs）在复杂三维环境中实现机器人智能互动的方法。通过自主探索，机器人能够发现可用对象并高效行动，实验表明其在家居环境中的表现优越。此外，提出的“行动前询问”方法显著提高了机器人在未知环境中的决策能力和样本效率。

基于探索的错误纠正学习框架E2CL用于具身智能体

BriefGPT - AI 论文速递 ·

本研究提出了一种基于增强学习的神经网络架构搜索方法，优化目标检测模型，并在COCO数据集上超越现有模型。同时，设计了新的二值神经网络BinaryDenseNet，提升了训练精度。通过Binary ArchitecTure Search (BATS)框架，提出了新的搜索策略，实现了在多个数据集上的技术突破。

NAS-BNN：用于二进制神经网络的神经架构搜索

BriefGPT - AI 论文速递 ·

本文介绍了一种基于模型驱动的增强学习推荐系统，利用马尔可夫决策过程优化推荐策略，并通过在线模拟器进行评估。研究提出了多种强化学习算法，如PrefRec和AdaRec，以提高用户参与度和推荐质量。同时，探讨了离线强化学习在推荐系统中的应用，提出五种方法解决数据分布不匹配问题，实验结果表明新方法在性能上优于现有技术。

基于强化学习的序列推荐的高效连续控制视角

BriefGPT - AI 论文速递 ·

本文介绍了首个序列视觉语言数据集的发布，包含81,743张图片和20,211个序列，旨在推动视觉叙事任务的发展。研究提出了多种视觉叙述方法，通过结合预训练模型和增强学习，提升了故事生成的质量和连贯性。实验结果表明，新方法在信息丰富性和稳健性方面优于现有模型，展现了视觉故事生成的潜力。

基于上下文的视觉讲故事：视觉前缀调优与对比学习

BriefGPT - AI 论文速递 ·

本文探讨了利用增强学习提升恶意代码检测的有效性，提出了多种基于强化学习的框架和算法，旨在自动化渗透测试、提高攻击检测率并降低误报率。研究表明，强化学习在网络安全领域具有显著优势，能够有效应对新兴威胁和漏洞。

强化学习在网络事件响应中高效有效的恶意软件调查中的应用

BriefGPT - AI 论文速递 ·

本文介绍了通过增强学习优化扩散模型的方法，包括去噪扩散策略优化（DDPO）和DPOK，旨在提升图像质量和文本对齐。此外，研究提出了AlignProp方法，利用人类反馈改进文本转语音合成，增强模型的多样性和公平性。这些方法使扩散模型在多个视觉任务上取得了显著进展。

面向策略学习的文本感知扩散

BriefGPT - AI 论文速递 ·

本文介绍了一种基于细粒度素描的图像检索方法，利用增强学习和半监督框架提升检索效率，解决数据稀缺问题。研究表明，该方法在多个数据集上表现优越，显著提高了检索性能。

简单而高效：面向自监督的统一样本特征对齐的局部区域特征匹配

BriefGPT - AI 论文速递 ·

本文介绍了多种社交机器人导航技术，包括基于对话历史的导航、社交动作潜空间学习和增强学习框架。研究表明，历史对话长度、个性化控制器和人类互动显著影响导航性能，并提出了新的评估标准和方法，以提升机器人在复杂环境中的导航能力。

CoNav：人本合作导航的基准测试

BriefGPT - AI 论文速递 ·

本文探讨了结合增强学习和模型控制的方法，以提升四足机器人的运动和操控能力。研究提出了多层次控制框架，通过视觉输入和低层次控制策略，实现了在不同环境中有效拾取物体和生成动态步态。该方法在仿真和实际应用中表现出良好的适应性和鲁棒性。

学习用于腿式操纵的力控制

BriefGPT - AI 论文速递 ·