小红花·文摘

本研究提出ExOSITO方法，旨在解决重症监护室患者实验室检查过度订购的问题。该方法结合离线政策学习与临床信息，优化检查订单，降低成本，同时确保不遗漏必要检查，优于传统医生政策。

ExOSITO: Application of Explainable Off-Policy Learning with Side Information in Blood Test Orders in the Intensive Care Unit

BriefGPT - AI 论文速递 ·

本研究探讨了温室控制中的全自动决策系统，重点在于及时决策以最大化收益和最小化风险。文章提出了政策学习技术，并通过案例展示了成功经验，强调了未来自动化农场管理系统的研究方向和潜力。

Towards Fully Automated Decision-Making Systems for Greenhouse Control: Challenges and Opportunities

BriefGPT - AI 论文速递 ·

本研究提出了一种基于对抗数据增强的离线强化学习模型MORAL，旨在解决静态数据下策略开发的稳健性问题。实验结果表明，MORAL在政策学习和样本效率方面优于传统方法，具有广泛的适用性。

基于模型的离线强化学习与对抗数据增强

BriefGPT - AI 论文速递 ·

本文探讨了机器人在自主操作中实现双手协调运动的挑战，提出了一种新颖的模仿学习架构，通过手臂间协调变压器编码器提高双手合作动作的预测效率。实验结果显示，该模型在双手操控任务中具有高成功率，展现了其在政策学习中的潜力。

Learning Bimanual Manipulation via Action Chunking and Inter-Arm Coordination with Transformers

BriefGPT - AI 论文速递 ·

该研究提出了一种统一框架，解决因果模仿学习中的隐性混杂因子问题，并引入新算法DML-IL，显著提升政策学习的准确性，实验结果优于现有算法。

A Unified Framework for Causal Imitation Learning under Hidden Confounding Factors

BriefGPT - AI 论文速递 ·

本文探讨了多种优化方法，以提升基于评分的强化学习（RbRL）的性能。通过最小化人类评分与推断奖励之间的交叉熵损失，改进模型有效性，并为超参数优化提供指导，从而增强无奖励环境中的政策学习表现。

Performance Optimization of Rating-Based Reinforcement Learning

BriefGPT - AI 论文速递 ·

该论文探讨了Pareto最优估计和政策学习方法，旨在识别最有效的治疗方案，平衡短期与长期效果。研究采用双重稳健方法预测渐进流失管理策略的长期结果，并提出基于平衡权重的个性化决策策略，显著优于现有方法。此外，论文介绍了深度强化学习在优化决策长期公平性方面的应用，提出了量化长期公平性的框架，并验证了算法在不同数据集上的有效性。

平衡短期和长期回报的政策学习

BriefGPT - AI 论文速递 ·

该研究提出了一种新型的政策学习框架，解决了实际场景中正性假设不可行的挑战。通过半参数效率理论建立了增量倾向得分策略的特征和识别条件，并提出了高效估计器，验证了该框架在有限样本情况下的性能。

结合试验与观察数据的外部有效政策评估

BriefGPT - AI 论文速递 ·