小红花·文摘

本研究评估了RoBERTa Base、Bangla-BERT和BERT Base模型在孟加拉语教材中的问答能力。结果表明，Bangla-BERT在多种超参数配置下表现最佳，最高F1分数为0.75，强调了超参数微调对模型性能的重要性。

BriefGPT - AI 论文速递 ·

本研究提出了CodeRepoQA，这是一个用于评估软件工程领域代码库问答能力的大规模基准，包含来自30个知名GitHub代码库的585,687条问答记录，涉及五种编程语言，揭示了大语言模型在该领域的局限性。

BriefGPT - AI 论文速递 ·

KDnuggets ·

本文探讨了跨语言建模的进展，提出了包含260,000个问题-答案对的“多语言知识问答”（MKQA）评估集，涵盖26种语言。研究显示，尽管大多数开放式语言模型主要针对英语，但在多语言环境中的表现仍需提升。通过知识蒸馏技术，开发了适用于西班牙语的RoBERTa模型，以提高问答能力并适应资源有限的环境。

BriefGPT - AI 论文速递 ·

本文研究了不同预训练语言模型在问答能力上的表现，发现RoBERTa和BART效果最佳。通过实证分析，提出了基于BERT的特征捕捉语义相似性的方法，并在多个数据集上实现了领先性能。研究表明，BERT在某些数据集上优于传统模型，值得投入时间和成本。

BriefGPT - AI 论文速递 ·

Blog on LlamaIndex ·