本研究针对现有大型语言模型(LLMs)在知识评估方面过于侧重英语的问题,提出了一种新的阿拉伯语多选题数据集AraSTEM,旨在全面评估这些模型在STEM学科的知识。研究发现,许多现有模型在该数据集上表现不佳,强调了开发更本地化语言模型的必要性。
本研究提出MCQG-SRefine框架,通过专家提示和自我修正,提升大型语言模型生成专业领域多选题的质量和难度,并用LLM自动评估替代人工评估。
研究显示,大型语言模型在符号推理任务中表现优异。评估了Llama 2家族三个模型在不同难度数学公式上的能力。结果表明,增大模型规模和微调能显著提升性能,尤其在简单公式上。但即使是最大的微调模型,仍有挑战。
SCaLAR团队在SemEval-2024任务5中提出了一种基于相似度和距离的无监督方法来解决民事诉讼中的法律论证问题。他们使用了CNN、GRU和LSTM等集成特征和多级融合的Legal-Bert嵌入来解决法律文本复杂性的问题。通过引入基于T5的分段摘要,成功保留关键信息并提高了模型性能。无监督系统在开发集和测试集上都取得了显著提高的得分。
GPQA是一个448个多选题的高难度数据集,对非专家和AI系统都具有一定难度。需要开发可扩展的监督方法以提供可靠的人类监督和获取可靠信息的能力。
该文介绍了一种对齐的语言模型在多选题设置下多显示过于自信的输出答案的问题,并提出了易于实施且高效的校准方法。作者评估了对齐过程对语言模型的逻辑回归置信度校准的影响。
研究发现,大型语言模型中的多项选择题的选项编号与选择偏见密切相关。提出了一种名为PriDe的新方法,通过计算先验分布解决这一问题,将选项内容与编号分离。PriDe方法无需标签,推断过程中效果和计算效率更高。通过对不同领域样本训练,证明PriDe方法估计的先验分布具有良好的泛化能力,具有实用潜力。
完成下面两步后,将自动完成登录并继续当前操作。