小红花·文摘

本研究探讨了遮蔽语言模型中$ exttt{[MASK]}$标记导致的语义破坏问题，提出了ExLM方法，通过扩展上下文中的$ exttt{[MASK]}$标记来增强模型的上下文容量。实验结果表明，ExLM在文本建模和SMILES建模任务中显著提升了性能，并减少了多模态问题。

ExLM: Rethinking the Impact of $ exttt{[MASK]}$ Tokens in Masked Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在处理长上下文时的能力，发现模型倾向于依赖表面信息而非深层理解。提出了SoftPromptComp框架，显著提升了模型的效率和生成内容的质量。同时，研究分析了参数激活行为，并提出通过文本块和特殊标记改进信息整合的方法，以优化长文本语言建模。

从大型语言模型的令牌激活中提取段落

BriefGPT - AI 论文速递 ·

本文评估了多种大型语言模型在处理长上下文的能力，发现商业模型（如GPT-3.5-Turbo-16k）在短依赖任务上表现优于开源模型，但在长上下文理解上仍面临挑战。研究提出了LIConBench和CLongEval等基准测试，并指出大多数模型在超过20K令牌时性能下降，强调了改进长文本建模能力的必要性。

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

BriefGPT - AI 论文速递 ·

该文介绍了一个利用预训练语言模型处理长文本文档的深度学习框架，通过自注意力机制提取文档级特征，该框架在美国银行的报告数据集上表现出色，是文本建模和回归模型的更好选择，有助于提高预测分析的质量。

使用 Fine-Tuned BERT 和 LSTM 模型从 10-K 报告中找到利益相关者相关信息

BriefGPT - AI 论文速递 ·