小红花·文摘

本研究提出了大规模多语言文本嵌入基准（MMTEB），涵盖500多个评估任务和250种语言。最优模型“multilingual-e5-large-instruct”以560百万参数领先，并通过新方法降低计算成本。

MMTEB: Massive Multilingual Text Embedding Benchmark

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）是否真正理解其表达内容，设计了新的评估任务PhysiCo。结果显示，LLMs的表现比人类低约40%，并存在随机鹦鹉现象，表明任务的挑战源于内在困难。

Random Parrots on the Shoulder: A Comprehensive Assessment of Understanding Physical Concepts

BriefGPT - AI 论文速递 ·

本研究提出了一项新评估任务和TReMu框架，旨在提升大型语言模型在多会话对话中的时间推理能力，显著改善其性能，填补研究空白。

面向具有记忆的LLM智能体的神经符号时间推理的TReMu

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）在医学成像、法律和教育反馈等领域的应用。研究表明，LLM能够有效评估和生成报告，并与人类评估结果一致。通过新基准测试，揭示了LLM在评估任务中的能力和局限性，强调了进一步改进的必要性。MLLM-Bench作为新基准，旨在全面评估视觉语言模型的性能，推动开源社区的发展。

BADGE：LLM 模型下的羽毛球报告生成与评估

BriefGPT - AI 论文速递 ·

该综述总结了代码处理和语言模型的最新进展，包括50+种模型、30+项评估任务和500多个相关研究。分析了通用语言模型和专门针对代码进行预训练的模型之间的关系和区别，并强调了代码建模的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用，并确定了该领域的主要挑战和潜在未来方向。

GenCodeSearchNet：编程语言理解中泛化能力评估的基准测试套件

BriefGPT - AI 论文速递 ·

该文介绍了一种用于训练现代大型语言模型的上下文长度外推方法，以处理更长的输入序列。作者测试了三个新的评估任务，并发现线性标度是扩展上下文长度的最佳方法。作者还发布了三个新的长上下文模型，名为Giraffe，并提供了复制结果的代码。

通过在分段序列上训练扩展语言模型的输入上下文

BriefGPT - AI 论文速递 ·

本文介绍了一种用于训练现代大型语言模型的不断增长的上下文长度外推方法，并测试了三个新的评估任务。作者发现线性标度是扩展上下文长度的最佳方法，并且使用更长的标度可以获得进一步的收益。作者还发布了三个新的长上下文模型，并提供了复制结果的代码。

LongLoRA: 长文本大语言模型的高效微调

BriefGPT - AI 论文速递 ·