任务复杂性:用于任务复杂性分类的数据集及其在In-Context Learning、FLAN-T5和GPT-4o基准测试中的应用
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了将编程任务分类和分配给专家的挑战,该过程通常需要大量的时间和成本。通过网络爬虫技术创建了一个新的包含4,112个编程任务的数据集,系统性地提取了任务的关键要素。结果显示,基于上下文学习的GPT-4o-mini在性能上优于FLAN-T5模型,展示了该数据集在任务分配中的潜力。
我们开发了ComplexityNet,一个精简的语言模型,用于评估任务复杂性。在Python问题上的准确率达到79%,远高于未微调模型的34%。ComplexityNet减少了90%的计算资源,代码生成准确性保持在86.7%。研究表明,微调小模型可以在准确性和效率之间取得平衡,为资源有限的环境提供优化方案。