vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈问题,支持几乎零浪费的 KV 缓存内存和多种提示方式,适用于编码器/解码器模型,如 BART,提升推理效率。
本文介绍了一种多模态学习的编码器-解码器模型,能够有效学习图像和文本的联合嵌入。研究涵盖了UNITER和E5-V等模型,强调其在视觉-语言任务中的应用和优势。E5-V通过单模态训练降低了训练成本,并在多模态嵌入方面表现出色,推动了多模态语言模型的研究。
本文介绍了一种新型编码器-解码器模型,结合RGB和深度图像特征,提升了语义分割的精度与效率。实验结果表明,该模型在计算成本和准确性上优于现有技术。同时,研究探讨了多任务学习和深度感知方法在语义分割中的应用,强调了深度相机在手术技能评估中的潜力。
本文探讨了多种高效的文档检索和重新排序方法,包括预训练的编码器-解码器模型、稀疏矩阵因子分解和ColBERTv2等。这些方法在提高检索速度和准确率方面表现优异,尤其是在低延迟环境下,较浅的变形器模型能显著提升性能。
本文综述了动态图表示学习的研究进展,包括动态知识图谱、编码器-解码器模型和应用,并提出了未来研究方向。
该文介绍了一种基于骨架序列的视频异常检测方法,采用多任务学习实现轨迹的外推和插值,采用基于注意力的编码器-解码器模型,在三个数据集上进行了实验证明了该方法的有效性。
该研究提出了多种模型来解决单语英文到Hinglish的翻译问题,其中使用mT5和mBART Transformer-based编码器-解码器模型表现良好。同时,提出了一种生成混合编码文本的无依存方法,并采用课程学习方法来提高语言模型性能。在英语-Hinglish官方共享任务中,该模型效果最佳。
该研究论文探讨了离散领域中扩散模型的应用,将其作为生成算法的辅助方法。通过在预训练的编码器-解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在生成文本方面的有效性。潜在扩散模型优于自回归基线,并支持可控的生成。
该论文提出了一种基于多模态信息的多模态预训练和迁移学习框架(MISSRec),用于顺序推荐。通过设计编码器-解码器模型和动态融合模块,MISSRec能够实现更鲁棒且可迁移的序列表示。该方法在实验中表现出的效果和灵活性使其成为实际推荐场景的可行解决方案。
完成下面两步后,将自动完成登录并继续当前操作。