本研究探讨了大型语言模型(LLMs)在自动评估中的非传递性问题,发现评审存在非传递偏好,影响模型排名。为提高排名的可靠性,提出结合循环赛和Bradley-Terry模型的方法,并引入瑞士式迭代配对以提升效率。
本文通过分析超过10,000条人类象棋比赛记录,研究了象棋游戏中的传递性与非传递性元素,并引入了JiangJun算法,该算法是蒙特卡洛树搜索和策略空间响应神谕的创新组合,旨在近似纳什均衡。经过微信小程序的评估,算法在与人类玩家的比赛中取得了99.41%的胜率,达到了大师级水平。量化指标和可视化结果证实了该算法在克服非传递性方面的有效性。
完成下面两步后,将自动完成登录并继续当前操作。