小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了多目标马尔可夫决策过程中的期望收益向量实现问题，指出传统纯策略无法满足需求。提出通过混合有限纯策略来逼近任意期望收益向量，并在所有策略下期望收益有限的情况下实现。这一发现对随机策略设计具有重要影响。

Mixing Any Cocktail with Limited Ingredients: The Structure of Payoff Sets in Multi-Objective Markov Decision Processes and Its Impact on Randomized Strategies

BriefGPT - AI 论文速递 ·

本研究提出了阈值UCT（T-UCT）算法，旨在优化约束马尔可夫决策过程中的期望收益与成本平衡。该算法通过估计Pareto曲线，结合创新的动作选择和阈值更新规则，有效寻找安全且有价值的策略，实验结果表明其性能优于现有方法。

Threshold UCT: Cost-Constrained Monte Carlo Tree Search with Pareto Curves

BriefGPT - AI 论文速递 ·

该研究提出了一种新的射门情况分析框架，使用机器学习和博弈论方法，并引入了期望收益和xSOT指标来评估选手表现。验证了该框架的可行性，并在2022年世界杯和2020年欧洲杯中进行了研究。阐明了最优策略的应用。

战术 AI：足球战术的人工智能助手

BriefGPT - AI 论文速递 ·