小红花·文摘

NarrativeTrack：超越画框评估视频语言模型

Apple Machine Learning Research ·

剖析视频大语言模型基准：知识、空间感知还是真实的时间理解？

Apple Machine Learning Research ·

本研究提出了TISER框架，旨在提升大型语言模型在时间推理任务中的表现。通过构建时间线和自我反思，显著改善了事件顺序、持续时间和时间关系的处理能力。实验结果表明，TISER在多个基准测试中表现优异，帮助较小的开源模型在复杂时间推理任务中超越大型模型。

Learning to Reason Over Time: Timeline Self-Reflection for Improving Temporal Reasoning in Language Models

BriefGPT - AI 论文速递 ·

该研究提出视频旋转位置编码（VRoPE），旨在克服视频大型语言模型中旋转位置编码（RoPE）在处理复杂时空结构方面的局限性。VRoPE在视频理解、时间推理和检索任务中优于现有RoPE变体，展现出较大潜力。

VRoPE：视频大型语言模型的旋转位置编码

BriefGPT - AI 论文速递 ·

本研究提出了一项新评估任务和TReMu框架，旨在提升大型语言模型在多会话对话中的时间推理能力，显著改善其性能，填补研究空白。

面向具有记忆的LLM智能体的神经符号时间推理的TReMu

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，结合大语言模型与视觉语言模型，解决视频异常检测中的可解释性和时间推理挑战，提升检测能力，推动少样本和零样本检测应用。

异类检测何去何从？大语言模型和视觉语言模型的聚焦

BriefGPT - AI 论文速递 ·

本文介绍了DateLogicQA基准，包含190个问题，涉及多种日期格式和时间推理类型。研究分析了大型语言模型在时间推理中的表现差距，并提出了语义完整性指标来评估分词质量，同时探讨了代表性偏差和逻辑偏差。

日期逻辑问答：大型语言模型时间偏差的基准测试

BriefGPT - AI 论文速递 ·

本研究探讨了资源丰富语言与低资源语言之间的标注资源差异，提出了mTEMPREASON数据集和跨语言时间敏感语义对齐(CLITSSA)方法，显著提升了低资源语言的时间推理能力。实验结果显示，CLiTSSA在罗马尼亚语、德语和法语的时间任务中优于现有基准。

Inherent Rewards of Multilingual Large Language Models for In-Language Time-Sensitive Semantic Alignment to Support Low-Resource Languages

BriefGPT - AI 论文速递 ·

本文介绍了多个新的视频理解基准，包括AGQA、MVBench、MMWorld和TemporalBench，旨在评估多模态语言模型（MLLMs）在视频分析中的表现。研究发现现有模型在时间推理和长视频理解方面存在显著不足，并提出了改进方法和新框架以提升模型性能。

评估多模态基础模型的视觉时间推理能力的TOMATO

BriefGPT - AI 论文速递 ·

本文介绍了大型语言模型（LLMs）的评估方法和基准测试，包括TemporalWiki基准、动态基准和用户需求导向的评估框架。研究探讨了LLMs在知识保持、时间推理和偏见方面的挑战，并提出了改进评估的建议，以提升其可靠性和实际应用效果。

NewTerm：针对大型语言模型的新术语实时基准测试（年度更新）

BriefGPT - AI 论文速递 ·

该论文提出了一种新的视频-语言模型，旨在提升视频理解能力。通过去耦合的空间-时间编码器和新的预训练目标，该模型在视频问答任务中表现优越。研究引入了多个基准测试，如InfiniBench和E.T.基准，以评估长视频理解的挑战，并提出了TVBench以增强时间推理能力。实验结果表明，该模型在多项任务中显著优于现有方法。

TemporalBench：多模态视频模型的细粒度时间理解基准

BriefGPT - AI 论文速递 ·

本文介绍了一种名为TempoQR的时间问答方法，显著提升了复杂时间问题的回答能力。研究提出了多个框架和数据集，以增强大型语言模型在时间推理方面的性能，强调了时间信息在问答系统中的重要性。

增强时间敏感性和推理能力以应对时间敏感问答

BriefGPT - AI 论文速递 ·

本研究探讨了音频问题回答（AQA）任务中的时间推理能力，提出了多种模型以提升性能，包括MALiMo和INDENT。研究表明，利用多模态知识和新数据集可以显著改善音频场景理解和问题定位能力。此外，GAMA模型在音频理解任务中表现优异，解决了文本到音频检索中的时间顺序理解问题。

增强大规模音频语言模型中的时间理解能力的音频问答

BriefGPT - AI 论文速递 ·

本文介绍了时间平衡逻辑（TEL）的研究进展，探讨了线性时态逻辑（LTL）在机器人本地化和时间推理中的应用。研究提出了多种算法和理论，旨在提升时间推理能力，并开发了Timo模型，在时间推理任务中表现优异，准确度超过同类模型。

时间集成逻辑

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在时间推理和表格推理任务中的表现，指出其在时间理解方面的局限性。研究提出了新模型TempGraph-LLM和TimeLlaMA，以提升推理能力，并通过实验验证了这些模型在处理复杂表格数据时的优势与不足。

提升半结构化表格中 LLMs 的时间理解能力

BriefGPT - AI 论文速递 ·

本研究介绍了UnSeenTimeQA，一个新的时间敏感问答基准，旨在评估大型语言模型在真实时间推理中的能力。研究发现，现有模型在复杂时间推理场景中表现不佳，并提出了新的时间上下文感知问答框架TCQA，显著提升了模型性能。此外，研究探讨了如何构建时间敏感问答数据集，以增强长文档QA系统的时间推理能力。

连续学习的时间敏感问答

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型在时间推理任务中的性能，提出了STG-LLM方法以解决序列文本与空间-时间数据的不匹配问题，并创建了TimeBench基准来评估模型的时间推理能力。研究表明，当前模型在时间理解方面存在显著不足，尤其在处理复杂问题时表现不佳，强调了改进的必要性。

STBench: 大型语言模型在时空分析中的能力评估

BriefGPT - AI 论文速递 ·

本文介绍了TimeBench，一个评估大型语言模型（LLMs）时间推理能力的基准。研究表明，当前LLMs在时间推理任务上仍显著落后于人类。通过系统研究和新型学习框架，提出了提升时间推理能力的方法，并开发了表现优异的Timo模型。希望这些研究能促进LLMs在时间推理方面的进步。

ReXTime: 视频跨时间推理的基准套件

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在时间推理能力方面的局限性，并提出了多个基准测试（如TimeBench和TRAM）来评估其性能。研究表明，当前模型在时间推理任务上仍显著落后于人类，强调了改进的必要性。通过新方法和数据集，研究旨在提升LLMs的时间理解和推理能力。

时光考验：评估 LLMs 在时间推理上的基准

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在复杂时间推理中的挑战，提出结合自然语言处理与逻辑推理的框架，通过构建测试数据集和新型学习框架提升模型的时间推理能力。研究发现现有模型在时间理解上存在局限，并提出改进策略以增强模型性能。

活在当下：大型语言模型能否把握同时推理？

BriefGPT - AI 论文速递 ·