大型语言模型的能力受监督微调数据组成的影响
原文中文,约500字,阅读约需2分钟。发表于: 。通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力,发现不同能力展现出不同的扩展模式,较大的模型在相同数据量下表现更好;数据组成在低数据量下会改善各种能力,而在高数据量下可能导致能力冲突;而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。
本文研究了利用大型语言模型进行特定领域数学推导的能力,发现fine-tuned FLAN-T5-large (MathT5)在绝对性能方面超过了GPT模型,但对于涉及未知符号的扰动更为敏感。同时,分析了常见的推理错误和现有指标的适用性,总体来说,合成数据训练模型可以提高其数学能力。