基于量化的 LLaMa 模型在巴西中学考试上的基准测试
原文中文,约400字,阅读约需1分钟。发表于: 。对 7 和 13 亿规模的大型语言模型 (Large Language Models, LLMs) 进行了性能评估,经过量化处理后在家用硬件上运行。通过包含 1,006 个巴西国家中学考试 (ENEM) 问题的数据库进行模型效果评估,最佳模型对原文葡萄牙语问题和其英文翻译的准确性分别达到约 46% 和 49%。此外,通过执行时间衡量模型的计算效率,7 和 13 亿规模的 LLMs...
研究评估了多种大语言模型在心理健康任务中的表现,发现LLMs在零样本和少样本提示设计上具有有限但有希望的性能。指令微调可以显著提升LLMs在所有任务上的表现。最佳微调模型Mental-Alpaca在平衡精度上比GPT-3.5高出16.7%,并与最先进的任务特定模型相媲美。研究总结了一系列行动指南,介绍如何赋予LLMs更好的心理健康领域知识,并成为心理健康预测任务的专家。