小红花·文摘

本研究探讨了大型语言模型（LLMs）在自动评估中的非传递性问题，发现评审存在非传递偏好，影响模型排名。为提高排名的可靠性，提出结合循环赛和Bradley-Terry模型的方法，并引入瑞士式迭代配对以提升效率。

研究LLM作为评审的非传递性

BriefGPT - AI 论文速递 ·

本文通过分析超过10,000条人类象棋比赛记录，研究了象棋游戏中的传递性与非传递性元素，并引入了JiangJun算法，该算法是蒙特卡洛树搜索和策略空间响应神谕的创新组合，旨在近似纳什均衡。经过微信小程序的评估，算法在与人类玩家的比赛中取得了99.41%的胜率，达到了大师级水平。量化指标和可视化结果证实了该算法在克服非传递性方面的有效性。

江郡：通过解决两人零和博弈中的不可传递性来掌握象棋

BriefGPT - AI 论文速递 ·