小红花·文摘

本研究针对食谱生成任务的模型评估不足，提出了新的评估框架，并对多种小型语言模型进行了微调与比较。结果表明，大模型在标准指标上表现优异，但在领域特定指标下，模型大小与食谱质量的关系更为复杂，为未来研究提供了重要启示。