小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种双重最小二乘深度确定性策略梯度（DLS-DDPG）方法，以解决现有LS-DQN在连续动作中的局限性。通过在MuJoCo环境中的实验，验证了线性回归更新在某些任务中的性能提升，但正则化项的问题仍需进一步解决。

Application of Linear Regression Method in Deep Reinforcement Learning for Continuous Action Scenarios

BriefGPT - AI 论文速递 ·

本文探讨了VLA模型的设计哲学，分析了RoboVLMs框架如何有效整合VLM到VLA中。研究表明，连续动作优于离散动作，历史信息建模能提升性能。实验结果显示，KosMos和Paligemma骨干在真实场景中表现出色，验证了VLA的有效性和鲁棒性。

RoboVLM——通用机器人策略的VLA设计哲学：如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据

结构之法算法之道 ·

本研究提出了一种新方法，将大型视频模型与连续动作结合，解决了缺乏具身代理的问题。结果表明，该框架在无外部监督下能有效完成复杂任务，优于专家演示的行为克隆基线，具有重要应用潜力。

Connecting Video Models with Actions through Goal-Conditioned Exploration

BriefGPT - AI 论文速递 ·