本文介绍了一种名为独占自注意力(XSA)的方法,旨在提升Transformer的序列建模性能。XSA通过限制注意力仅捕捉与令牌自身值向量正交的信息,从而改善上下文建模。在标准语言建模任务中,XSA在不同模型规模上均优于自注意力(SA),且随着序列长度增加,性能提升更为显著。
本研究提出JELLY框架,解决对话语音合成中的上下文和情感识别问题。通过微调大型语言模型,JELLY能够自然生成符合对话情感的语音,实验结果表明其在情感上下文建模方面表现优异。
本研究提出了一种名为LBA-MCNet的显著对象检测器,旨在提高光学遥感图像中边界特征识别和前景背景建模的效率。该方法通过边缘特征自适应平衡调整和全球分布亲和学习模块,实现了更精确的目标定位和上下文建模,实验结果显示其在28种先进方法中表现优越。
差分 Transformer 是由微软研究院和清华大学提出的新架构,解决了传统 Transformer 的注意力噪声问题。通过差分注意力机制,模型更好地关注关键信息,提升上下文建模能力。实验显示,其在语言建模、信息检索等任务中表现优于传统模型,并具备更好的扩展性和稳健性,同时支持低位宽量化,实现高效计算。
本文介绍了一种变分贝叶斯方法和多种神经网络模型,用于上下文建模和图像中的对象定位。这些模型在多个数据集上表现优异,具有高效性和可解释性,特别是在弱监督学习和多模态交互方面,推动了自然语言处理与计算机视觉的结合。
本文回顾了图像定位领域的多种方法,指出现有数据集的偏差影响模型性能。研究提出了新的视觉定位框架和数据集,强调上下文和关系建模的重要性,并展示了在多个数据集上的优越性能。
本文探讨了多种视频字幕生成方法,包括多任务学习模型、密集视频字幕框架和基于检索句子的生成技术。这些方法通过优化视频内容理解和上下文建模,显著提升了字幕生成性能,并在多个数据集上取得了优异结果。此外,研究还提出了一个大规模情感视频数据集eMotions,以支持短视频情感分析研究。
本文综述了密集视频字幕生成(DVC)技术,强调事件间的相互关系和上下文建模。介绍了多种DVC框架和模型,包括基于时间依赖性和强化学习的生成网络,以及利用未标记视频进行预训练的方法。这些新方法在多个数据集上显著提升了性能,推动了DVC领域的发展。
本文提出了多种基于大型语言模型(LLM)的新框架和方法,包括增强检索增强机器学习(RRAML)、多模态大语言模型修复助理(LLMRA)和LLaRA,旨在提升文本输入的上下文建模、图像修复和密集检索的性能。这些方法在多意图口语理解和特定领域问答中表现优异,显著提高了模型的准确性和效率。
现代计算机视觉处理大图像的方式有降采样和裁剪,但会导致信息和上下文损失。研究人员提出了xT框架,可以在GPU上对大图像进行全局上下文与局部细节的建模。通过引入嵌套分词方案,可以提高准确度和F1分数,适用于大图像中的上下文相关分割。
本文提出了一种弱监督视频异常检测框架,实现了高效上下文建模和增强语义可区分性,实验结果表明在三个具有挑战性的数据集上实现了竞争性的性能,某些异常子类的检测准确率也得到了极大的提高。
该文介绍了一种新的密集视频字幕框架,通过建模视频中事件的时间依赖性和利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在 ActivityNet Captions 数据集上,该方法表现出色。
完成下面两步后,将自动完成登录并继续当前操作。