小红花·文摘

本研究探讨了无人地面车辆的全球路径规划，旨在提高自主采矿机器人ROMIE的效率。首次结合强化学习与谷歌OR-工具，结果显示Q-Learning策略表现最佳，平均偏差仅为1.2%。

Intelligent Navigation: A Survey of Google OR-Tools and Machine Learning Applications in Global Path Planning for Autonomous Vehicles

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Q-Learning的强化学习框架，以优化动态定价策略。模拟结果表明，该模型在应对市场变化和消费者行为方面优于传统方法，提升了收益，并揭示了价格弹性与需求之间的复杂关系，展示了人工智能在经济决策中的潜力。

基于Q-Learning的动态零售定价——增强收益管理的强化学习框架

BriefGPT - AI 论文速递 ·

本文探讨了图神经网络（GNNs）在组合优化问题中的应用，提出了一种通过Q-Learning训练GNNs的新框架，显著提高了效率和准确性。研究表明，该方法在经典组合优化问题上优于传统算法，并在最大割问题上取得了最新成果，显示出GNNs在处理复杂组合优化问题上的广泛应用潜力。

通过循环特征更新增强图神经网络在组合优化问题上的性能

BriefGPT - AI 论文速递 ·

该研究探讨了利用强化学习在S&P 500指数上进行交易的可行性。实验结果显示，训练数据集中包含COVID-19时期的市场数据可以比基准策略获得更好的性能。在线策略方法（VI和SARSA）胜过Q-Learning，并突显了偏差-方差权衡和简单政策的泛化能力。未来工作包括尝试更新的Q-Learning策略和探索替代经济指标用于训练模型。

基于 Sarsa 和 Q 学习的异构智能目标跟踪的索引策略

BriefGPT - AI 论文速递 ·

强化学习Q-Learning是推进人工智能研究的关键。利用强化学习微调高性能LLM大模型的秘诀。人工智能研究将依赖两个目标：用更少数据使RL运行更好，使用LLM和小数据集合成高质量数据。最近的研究开始利用强大的LLM自动化数据收集，如Constitutional AI和RLAIF。使用LLM生成合成数据进行微调效果令人难以置信。

大模型新范式：用更少数据的Q-Learning训练

极道 ·

该研究利用强化学习算法优化员工长期收入，结果表明Q-Learning和Sarsa模型可使员工收入平均增加5%。研究承认职位筛选局限性，鼓励未来研究探索其他目标并解决局限性。

使用强化学习优化护理过程中的响应：关于攻击事件的案例研究

BriefGPT - AI 论文速递 ·