MathTutorBench:测量大型语言模型辅导能力的基准

📝

内容提要

本研究旨在解决缺乏可靠评估AI辅导模型教育能力的难题,通过创建MathTutorBench基准,提供全面的评估工具和数据集。研究发现,学科专长与教学能力之间存在权衡,而较长的对话则增加了辅导的挑战性。该基准的开放发布将推动未来模型的快速评估与发展。

🏷️

标签

➡️

继续阅读