LLM2Vec: 大型语言模型是强大的文本编码器

原文约500字,阅读约需2分钟。发表于:

我们引入了 LLM2Vec,这是一种简单的无监督方法,可以将任何解码器模型转换为强大的文本编码器,通过三个简单步骤:启用双向注意机制,掩码下一个标记预测和无监督对比学习,在英语词和序列级任务中,LLM2Vec 在词级任务上远远超过编码器模型,在 Massive Text Embeddings Benchmark (MTEB) 中获得了新的无监督最新性能,通过与有监督的对比学习相结合,我们在 MTEB 上实现了使用公开数据训练的模型的最新性能。

本文介绍了解决SemEval 2023 Task 2的体系结构和系统,评估了传统的条件随机场模型和经过自定义头部微调的大型语言模型。通过新的想法提高了模型性能,包括衰减辅助损失、三元标记混合和任务最优头部。最终模型在开发数据上达到了0.85/0.84的微观和宏观F1值,并在测试数据上达到了0.67/0.61。证明了预训练的LLM和额外特征/损失/模型工程技术的改进可以显著提高宏观F1分数。

相关推荐 去reddit讨论