小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
NarrativeTrack:超越画框评估视频语言模型

本文介绍了NarrativeTrack,这是评估多模态大语言模型(MLLMs)叙事理解的首个基准。该基准通过细致的实体中心推理,分析视频中的动态叙事。研究发现,现有模型在视觉转变和时间动态中难以稳定追踪实体,揭示了感知基础与时间推理之间的权衡。NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。

NarrativeTrack:超越画框评估视频语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-06T00:00:00Z
剖析视频大语言模型基准:知识、空间感知还是真实的时间理解?

本文探讨了视频理解基准的局限性,指出现有评估方法未能有效区分模型的时间推理能力。提出了VBenchComp,一个自动化流程,将问题分类为可回答、语义和时间问题,以便更细致地评估视频大语言模型的能力。分析表明传统评分掩盖了模型的弱点,并为未来基准设计提供了建议。

剖析视频大语言模型基准:知识、空间感知还是真实的时间理解?

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-27T00:00:00Z

本研究提出了TISER框架,旨在提升大型语言模型在时间推理任务中的表现。通过构建时间线和自我反思,显著改善了事件顺序、持续时间和时间关系的处理能力。实验结果表明,TISER在多个基准测试中表现优异,帮助较小的开源模型在复杂时间推理任务中超越大型模型。

Learning to Reason Over Time: Timeline Self-Reflection for Improving Temporal Reasoning in Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

该研究提出视频旋转位置编码(VRoPE),旨在克服视频大型语言模型中旋转位置编码(RoPE)在处理复杂时空结构方面的局限性。VRoPE在视频理解、时间推理和检索任务中优于现有RoPE变体,展现出较大潜力。

VRoPE:视频大型语言模型的旋转位置编码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一项新评估任务和TReMu框架,旨在提升大型语言模型在多会话对话中的时间推理能力,显著改善其性能,填补研究空白。

面向具有记忆的LLM智能体的神经符号时间推理的TReMu

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究提出了ChronoSense基准,以评估大型语言模型的时间理解能力。通过16个任务,发现现有模型在时间推理方面存在显著差异,并且依赖于记忆。这为提升模型的时间理解能力提供了重要依据。

ChronoSense:探索大型语言模型中的时间理解与事件的时间间隔

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

本研究提出了一种新方法,结合大语言模型与视觉语言模型,解决视频异常检测中的可解释性和时间推理挑战,提升检测能力,推动少样本和零样本检测应用。

异类检测何去何从?大语言模型和视觉语言模型的聚焦

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本文提出了DateLogicQA基准,包含190个问题,涵盖多种日期格式和时间推理,旨在缩小大型语言模型在时间推理中的表现差距。引入语义完整性指标评估分词质量,并分析代表性和逻辑偏差,揭示模型处理时间数据的挑战与局限性。

日期逻辑问答:大型语言模型时间偏差的基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究针对资源丰富语言与低资源语言的标注资源差异,提出了mTEMPREASON数据集和CLITSSA方法,以提升低资源语言的时间推理能力。实验结果表明,该方法在罗马尼亚语、德语和法语任务中优于现有基准。

多语言大型语言模型内在奖励语言内时间敏感语义对齐以支持低资源语言

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究推出了TVBench,一个开源的视频选择问答基准,旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现,TVBench要求模型具备较强的时间理解能力,大多数现有模型表现接近随机水平,只有Gemini-Pro和Tarsier明显优于基线。

TVBench:重新设计视频-语言评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究介绍了UnSeenTimeQA,一种新颖的时间敏感问答基准。不同于传统方法,它不依赖事实和网络查询,创造了脱离现实世界的信息场景。评估显示,多种语言模型在处理复杂时间推理问题时存在困难,并提供了性能分析。

检测问题中的时间模糊性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

大型语言模型的时间推理能力是理解世界的关键。研究提出了一个通用框架,利用数学数据集和自我批评的时间优化方法,提升模型的时间推理能力。Timo模型在7B和13B规模上表现优异,平均准确度超过同类模型,验证了框架的有效性和泛化能力。

增强时间敏感性和推理能力以应对时间敏感问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

TimeBench是一个用于评估语言模型时间推理能力的基准,发现最先进的语言模型与人类在时间推理方面存在差距。希望TimeBench能促进时间推理研究。

STBench: 大型语言模型在时空分析中的能力评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

TimeBench是一个用于评估语言模型时间推理能力的基准,发现最先进的语言模型与人类在时间推理方面存在差距。希望TimeBench能成为促进时间推理研究的全面基准。

时光考验:评估 LLMs 在时间推理上的基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

通过创建TimeBench,研究人员发现最先进的LLMs在时间推理方面与人类存在显著差距,希望TimeBench能促进LLMs在时间推理方面的研究。

TimeBench:大型语言模型中的时间推理能力全面评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

该文章介绍了一种新的多视图时序图增强时间推理框架MTGER,用于对时间相关的文档进行时间推理。该框架通过多视图时序图建模事实之间的时间关系,并采用自适应融合机制捕捉两个视图之间的时间和事实信息。

MTGER: 多视图时间图增强的时间推理模型应用于时间相关文档

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

本文评估了大型语言模型在时间理解和推理能力方面的表现,并测试了不同参数大小的主流模型。结果表明,大多数模型在处理时间因素时不如更小的时间推理模型,并且对时间偏差的敏感度较高。本文还探索了改进模型的潜在策略,为未来的研究提供了有价值的基准或参考。

基于时间感知的表示学习在时间敏感问答中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z

该研究介绍了一种名为TODAY的任务,旨在通过评估模型能否正确理解渐进变化的影响,来进行时间推理的迁移学习。研究发现当前的模型更多地依赖虚假信息而非恰当的推理来进行时间预测,并证明了TODAY的监督风格和解释注释可以用于联合学习,以鼓励模型在训练期间使用更适当的信号,并在多个基准测试中实现优异性能。

回到未来:面向大型语言模型的可解释性时间推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-02T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码