小红花·文摘

通过评估大型语言模型在维基百科和财务报告数据集上的能力，研究发现指令对性能有影响。新模型Llama3比之前版本更鲁棒，但WTQ数据集存在问题，需要改进模型的可靠性。