MathTutorBench:测量大型语言模型辅导能力的基准
📝
内容提要
本研究旨在解决缺乏可靠评估AI辅导模型教育能力的难题,通过创建MathTutorBench基准,提供全面的评估工具和数据集。研究发现,学科专长与教学能力之间存在权衡,而较长的对话则增加了辅导的挑战性。该基准的开放发布将推动未来模型的快速评估与发展。
🏷️
标签
➡️