小红花·文摘

本研究提出了一种新方法——蒙特卡洛束搜索（MCBS），结合了束搜索、蒙特卡洛回路和TD3，有效解决了传统方法的探索不足问题。实验结果显示，MCBS在多个基准测试中优于传统TD3。

连续控制中演员-评论家强化学习的蒙特卡洛束搜索

BriefGPT - AI 论文速递 ·

本研究提出了增强对比学习（EECL）模块，解决了TD3算法在机器人臂控制中的探索不足问题。实验结果显示，EECL方法在效率和收敛速度上优于基线TD3。

Optimizing TD3 for Grasping with a 7-DOF Robot Arm: Overcoming Suboptimality through Exploration Enhanced Contrastive Learning

BriefGPT - AI 论文速递 ·

该研究评估了基于深度神经网络的自适应巡航控制系统在感知攻击下的安全性。通过注入摄像头数据扰动，提出了一种基于知识和数据的结合方法，并设计了一种上下文感知策略来选择攻击触发的最关键时间。实验结果表明，该攻击的事故成功率提高了142.9倍，并在受到安全功能限制时减少了89.6%。该研究对人工操作员和基本安全干预在预防攻击中的作用提供了深入洞察。

基于 TD3 和 CACC 的自适应卡尔曼混合车辆跟随策略

BriefGPT - AI 论文速递 ·