小红花·文摘

如何构建一个实时AI健身教练与视觉代理

freeCodeCamp.org ·

如何在本地安装Meta Perception LM 8B？

DEV Community ·

微型视频人工智能：3B模型挑战巨头，展现“顿悟”时刻

DEV Community ·

本研究提出了VCR-Bench，这是一个评估视觉语言模型在视频推理能力的新基准，包含859个视频和1034对问答，揭示了模型在复杂推理中的局限性。

VCR-Bench: A Comprehensive Evaluation Framework for Video Reasoning Chains

BriefGPT - AI 论文速递 ·

本研究提出了KunLunBaize-VoT-R1视频推理模型，旨在提高视频语言预训练的推理效率和多模态数据处理能力。该模型结合图像打包技术和专家自治架构，显著提升了视频推理的效率和准确性，实验结果显示其在多项测试中表现优异。

Video-VoT-R1: An Efficient Video Inference Model Integrating Image Packing and AoE Architecture

BriefGPT - AI 论文速递 ·

本研究提出了VideoMind，一种新型视频语言智能体，旨在解决视频推理中的多模态不足。其创新在于角色基础的工作流程和链式LoRA策略，显著提升了视频理解能力，展示了在长时序推理中的潜力。

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于多模态大型语言模型的端到端视频推理分割方法（VRS-HQ），有效解决了现有方法的空间复杂性和运动捕捉不足的问题。VRS-HQ在ReVOS上表现优异，超越VISA，展现出强大的时空特征表示能力。

魔鬼在时间标记中：高质量视频推理分割

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视频的推理树方法，解决常识视频问答中的虚假关联问题。该方法通过构建推理树和动态扩展，适应现有的视频和图像模型，实验结果表明其在不同基准和推理类型中表现显著。

Video-Based Reasoning Tree for Commonsense Video Question Answering

BriefGPT - AI 论文速递 ·

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

机器之心 ·

本文提出了一种高效的模态融合框架CREMA，用于将新的模态注入视频推理。通过增强给定视频的多个信息模态，并引入一个与每个可访问模态相关的多个参数高效模块的查询转换器，将不同的数据类型整合到LLM令牌嵌入空间。同时提出了一个压缩多模态查询的融合模块，通过验证在视频-3D、视频-音频和视频-语言推理任务上的性能，显示了优于其他多模态LLMs的表现，并使用了96%较少的可训练参数。

CREMA: 多模态组合视频推理的高效模块适应与融合

BriefGPT - AI 论文速递 ·