本研究提出了一种基于目标条件的概率模型预测控制(GC-PMPC)方法,旨在解决多目标灵巧手操控的学习挑战。通过概率神经网络描述手动力学,并引入异步MPC策略,GC-PMPC在四个模拟场景中表现优于现有基准,展现出卓越的学习效率和控制性能。
本研究提出FFCBA方法,解决多目标后门攻击中干净标签攻击性能不稳定和扩展性差的问题。通过特征扩展和迁移,生成有效的噪声触发器,实现高效的跨模型攻击,展现出优越的攻击性能和良好的鲁棒性。
本研究提出了一种高效并行化的多目标A*搜索框架,解决了多目标最短路径问题,实验结果显示该框架显著提升了A*算法的性能。
本研究探讨了多目标马尔可夫决策过程中的期望收益向量实现问题,指出传统纯策略无法满足需求。提出通过混合有限纯策略来逼近任意期望收益向量,并在所有策略下期望收益有限的情况下实现。这一发现对随机策略设计具有重要影响。
本研究提出了一种最大熵强化学习与扩散策略(MaxEntDP),旨在解决传统高斯策略在复杂多目标强化学习中的探索能力不足的问题。实验结果表明,MaxEntDP 优于高斯策略及其他生成模型。
该研究提出了一种多目标集成批评家强化学习方法,旨在解决自主驾驶中的多目标兼容性问题,从而提高驾驶效率、安全性和训练效果。
本研究提出了一种分布式多目标后门攻击模型,针对联邦学习中的后门攻击问题。通过多通道触发策略和后门重放,确保不同恶意客户端的攻击有效性,验证结果显示攻击成功率超过93%。
本研究提出了一种结合软演员评论家和事后重新标签的新方法,解决大型语言模型在复杂环境中在线强化学习的局限性。在多目标强化学习环境中,该方法优于传统策略,并为自主学习代理的发展提供理论支持。
离线多目标优化进展缓慢,主要因缺乏基准。为此,首次提出了离线多目标优化基准,涵盖从合成到真实任务,提供任务、数据集和示例,支持方法比较和进展分析。研究调整现有方法,结果显示优化方法有效,但无明显优胜者,提升仍具挑战。未来挑战和启示也被探讨。代码可在GitHub获取。
完成下面两步后,将自动完成登录并继续当前操作。