小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了通过半监督学习和奖励模型优化机器人行为的方法，提出了SURF框架和DPO算法，显著提高了反馈效率和可控性。研究中使用Themis工具增强偏好建模，SuperHF方法解决了对齐挑战，并提出了合成偏好数据生成的新方法以改善奖励模型性能。此外，开发了RewardBench基准以评估奖励模型，最后提出了一种基于逆强化学习的监督微调方法，提升了大型语言模型与人类意图的对齐效果。

基于迭代自我训练的半监督奖励建模

BriefGPT - AI 论文速递 ·

本研究建立了多模态情感交互框架，优化机器人行为策略，提升社交场景中的自然性和吸引力。通过多模态学习，机器人在复杂环境中的导航和交互表现更佳，显示出相较于单模态学习的明显优势，增强了泛化能力和鲁棒性。

交互式机器人学习中联合模态的力量

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法，通过大型多模态模型（LMM）结合图像和文字指令进行推理。研究表明，当前模型在数学推理和几何计算方面与人类存在差距，强调了进一步发展的必要性。同时，提出了RoboCodeX框架用于机器人行为综合，以及评估基准MM-Vet，旨在提升多模态模型的视觉理解能力。

使用丰富视觉编程问题评估多模态编程大型语言模型

BriefGPT - AI 论文速递 ·

本研究比较了单目标和多目标强化学习方法，针对机器人导航问题进行了探究。通过修改奖励函数，机器人学习了平衡不同目标的策略。研究显示多目标强化学习在机器人导航任务中具有潜力，为进一步研究机器人行为奠定了基础。

基于效用的强化学习：统一单目标与多目标强化学习

BriefGPT - AI 论文速递 ·

本研究比较了单目标和多目标强化学习方法，针对机器人导航问题进行了探究。通过修改奖励函数，机器人学习了平衡不同目标的策略。研究表明，多目标强化学习在机器人导航任务中具有潜力，为进一步研究机器人行为奠定了基础。

增强机器人导航：单一和多目标强化学习策略的评估

BriefGPT - AI 论文速递 ·

本文讨论了将追逐-逃避互动中的机器人行为问题转化为监督学习问题的方法。通过使用可观测的机器人策略生成监督信号，研究发现监督信号的质量与逃避者行为的多样性和最优性的平衡以及建模假设的强度有关。实验中，他们在一台带有RGB-D相机的四足机器人上部署了这个策略，并成功应对了各种挑战。

ROSO: 通过合成观测改进机器人政策推断

BriefGPT - AI 论文速递 ·