本研究提出了大规模多语言文本嵌入基准(MMTEB),涵盖500多个评估任务和250种语言。尽管大规模语言模型表现优异,最优模型“multilingual-e5-large-instruct”以560百万参数领先,并通过新下采样方法降低了计算成本。
本研究探讨大型语言模型(LLMs)是否真正理解其表达内容,设计了新的评估任务PhysiCo。结果显示,LLMs的表现比人类低约40%,并存在随机鹦鹉现象,表明任务的挑战源于内在困难。
本研究提出了一项新评估任务和TReMu框架,旨在提升大型语言模型在多会话对话中的时间推理能力,显著改善其性能,填补研究空白。
该论文综述了大型语言模型的知识蒸馏技术,包括白盒和黑盒蒸馏方法,评估任务和蒸馏效果,并提出了未来研究方向。为研究人员提供了有价值的资源。
该文章通过构建新数据集和五个评估任务全面评估了文本到 SQL 过程中不同方法的性能差异,并提出了最佳上下文学习解决方案,为改进基于大型语言模型的文本到 SQL 系统的开发提供了有价值的见解。
本研究提出了名为Harmony的框架,结合了视觉-语言训练和自监督学习,能在各种视觉任务中表现优异。与其他方法相比,Harmony在评估任务上表现更好。
该综述总结了代码处理和语言模型的最新进展,包括50+种模型、30+项评估任务和500多个相关研究。分析了通用语言模型和专门针对代码进行预训练的模型之间的关系和区别,并强调了代码建模的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用,并确定了该领域的主要挑战和潜在未来方向。
该文介绍了一种用于训练现代大型语言模型的上下文长度外推方法,以处理更长的输入序列。作者测试了三个新的评估任务,并发现线性标度是扩展上下文长度的最佳方法。作者还发布了三个新的长上下文模型,名为Giraffe,并提供了复制结果的代码。
本文介绍了一种用于训练现代大型语言模型的不断增长的上下文长度外推方法,并测试了三个新的评估任务。作者发现线性标度是扩展上下文长度的最佳方法,并且使用更长的标度可以获得进一步的收益。作者还发布了三个新的长上下文模型,并提供了复制结果的代码。
完成下面两步后,将自动完成登录并继续当前操作。