Themisto: 基于Jupyter的运行时基准测试
📝
内容提要
本研究解决了大型语言模型(LLMs)在利用运行时信息进行代码输出预测和代码生成方面的不足,指出了当前代码模型开发中被忽视的一个重要领域。文章提出了一种基准测试,它使用Jupyter笔记本的开发轨迹,旨在改善LLMs在这些任务上的表现。
➡️
本研究解决了大型语言模型(LLMs)在利用运行时信息进行代码输出预测和代码生成方面的不足,指出了当前代码模型开发中被忽视的一个重要领域。文章提出了一种基准测试,它使用Jupyter笔记本的开发轨迹,旨在改善LLMs在这些任务上的表现。