本研究探讨了遮蔽语言模型中$ exttt{[MASK]}$标记导致的语义破坏问题,提出了ExLM方法,通过扩展上下文中的$ exttt{[MASK]}$标记来增强模型的上下文容量。实验结果表明,ExLM在文本建模和SMILES建模任务中显著提升了性能,并减少了多模态问题。
本研究探讨了大型语言模型在处理长上下文时的能力,发现模型倾向于依赖表面信息而非深层理解。提出了SoftPromptComp框架,显著提升了模型的效率和生成内容的质量。同时,研究分析了参数激活行为,并提出通过文本块和特殊标记改进信息整合的方法,以优化长文本语言建模。
本文评估了多种大型语言模型在处理长上下文的能力,发现商业模型(如GPT-3.5-Turbo-16k)在短依赖任务上表现优于开源模型,但在长上下文理解上仍面临挑战。研究提出了LIConBench和CLongEval等基准测试,并指出大多数模型在超过20K令牌时性能下降,强调了改进长文本建模能力的必要性。
该文介绍了一个利用预训练语言模型处理长文本文档的深度学习框架,通过自注意力机制提取文档级特征,该框架在美国银行的报告数据集上表现出色,是文本建模和回归模型的更好选择,有助于提高预测分析的质量。
完成下面两步后,将自动完成登录并继续当前操作。