MCTS-Judge: A Testing Time Scaling Framework for Code Correctness Evaluation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出MCTS-Judge框架,结合蒙特卡洛树搜索与自我评估策略,将代码正确性评价的准确率从41%提升至80%。该方法在逻辑、分析和整体质量方面表现优异。

🎯

关键要点

  • 本研究提出MCTS-Judge框架,结合蒙特卡洛树搜索与自我评估策略。
  • 该框架旨在提高代码正确性评价的精准度。
  • 实验结果显示,准确率从41%提升至80%。
  • MCTS-Judge在逻辑、分析、全面性和整体质量方面表现优异。
  • 研究揭示了LLM作为评判者的测试时间缩放规律。
➡️

继续阅读