MCTS-Judge: A Testing Time Scaling Framework for Code Correctness Evaluation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出MCTS-Judge框架,结合蒙特卡洛树搜索与自我评估策略,将代码正确性评价的准确率从41%提升至80%。该方法在逻辑、分析和整体质量方面表现优异。
🎯
关键要点
- 本研究提出MCTS-Judge框架,结合蒙特卡洛树搜索与自我评估策略。
- 该框架旨在提高代码正确性评价的精准度。
- 实验结果显示,准确率从41%提升至80%。
- MCTS-Judge在逻辑、分析、全面性和整体质量方面表现优异。
- 研究揭示了LLM作为评判者的测试时间缩放规律。
➡️