本文介绍了NarrativeTrack,这是评估多模态大语言模型(MLLMs)叙事理解的首个基准。该基准通过细致的实体中心推理,分析视频中的动态叙事。研究发现,现有模型在视觉转变和时间动态中难以稳定追踪实体,揭示了感知基础与时间推理之间的权衡。NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。
本文探讨了视频理解基准的局限性,指出现有评估方法未能有效区分模型的时间推理能力。提出了VBenchComp,一个自动化流程,将问题分类为可回答、语义和时间问题,以便更细致地评估视频大语言模型的能力。分析表明传统评分掩盖了模型的弱点,并为未来基准设计提供了建议。
本研究提出了TISER框架,旨在提升大型语言模型在时间推理任务中的表现。通过构建时间线和自我反思,显著改善了事件顺序、持续时间和时间关系的处理能力。实验结果表明,TISER在多个基准测试中表现优异,帮助较小的开源模型在复杂时间推理任务中超越大型模型。
该研究提出视频旋转位置编码(VRoPE),旨在克服视频大型语言模型中旋转位置编码(RoPE)在处理复杂时空结构方面的局限性。VRoPE在视频理解、时间推理和检索任务中优于现有RoPE变体,展现出较大潜力。
本研究提出了一项新评估任务和TReMu框架,旨在提升大型语言模型在多会话对话中的时间推理能力,显著改善其性能,填补研究空白。
本研究提出了ChronoSense基准,以评估大型语言模型的时间理解能力。通过16个任务,发现现有模型在时间推理方面存在显著差异,并且依赖于记忆。这为提升模型的时间理解能力提供了重要依据。
本研究提出了一种新方法,结合大语言模型与视觉语言模型,解决视频异常检测中的可解释性和时间推理挑战,提升检测能力,推动少样本和零样本检测应用。
本文提出了DateLogicQA基准,包含190个问题,涵盖多种日期格式和时间推理,旨在缩小大型语言模型在时间推理中的表现差距。引入语义完整性指标评估分词质量,并分析代表性和逻辑偏差,揭示模型处理时间数据的挑战与局限性。
本研究针对资源丰富语言与低资源语言的标注资源差异,提出了mTEMPREASON数据集和CLITSSA方法,以提升低资源语言的时间推理能力。实验结果表明,该方法在罗马尼亚语、德语和法语任务中优于现有基准。
本研究推出了TVBench,一个开源的视频选择问答基准,旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现,TVBench要求模型具备较强的时间理解能力,大多数现有模型表现接近随机水平,只有Gemini-Pro和Tarsier明显优于基线。
本研究介绍了UnSeenTimeQA,一种新颖的时间敏感问答基准。不同于传统方法,它不依赖事实和网络查询,创造了脱离现实世界的信息场景。评估显示,多种语言模型在处理复杂时间推理问题时存在困难,并提供了性能分析。
大型语言模型的时间推理能力是理解世界的关键。研究提出了一个通用框架,利用数学数据集和自我批评的时间优化方法,提升模型的时间推理能力。Timo模型在7B和13B规模上表现优异,平均准确度超过同类模型,验证了框架的有效性和泛化能力。
TimeBench是一个用于评估语言模型时间推理能力的基准,发现最先进的语言模型与人类在时间推理方面存在差距。希望TimeBench能促进时间推理研究。
TimeBench是一个用于评估语言模型时间推理能力的基准,发现最先进的语言模型与人类在时间推理方面存在差距。希望TimeBench能成为促进时间推理研究的全面基准。
通过创建TimeBench,研究人员发现最先进的LLMs在时间推理方面与人类存在显著差距,希望TimeBench能促进LLMs在时间推理方面的研究。
该文章介绍了一种新的多视图时序图增强时间推理框架MTGER,用于对时间相关的文档进行时间推理。该框架通过多视图时序图建模事实之间的时间关系,并采用自适应融合机制捕捉两个视图之间的时间和事实信息。
本文评估了大型语言模型在时间理解和推理能力方面的表现,并测试了不同参数大小的主流模型。结果表明,大多数模型在处理时间因素时不如更小的时间推理模型,并且对时间偏差的敏感度较高。本文还探索了改进模型的潜在策略,为未来的研究提供了有价值的基准或参考。
该研究介绍了一种名为TODAY的任务,旨在通过评估模型能否正确理解渐进变化的影响,来进行时间推理的迁移学习。研究发现当前的模型更多地依赖虚假信息而非恰当的推理来进行时间预测,并证明了TODAY的监督风格和解释注释可以用于联合学习,以鼓励模型在训练期间使用更适当的信号,并在多个基准测试中实现优异性能。
完成下面两步后,将自动完成登录并继续当前操作。