小红花·文摘

推出变革性的多摄像头视觉AI数据集

DEV Community ·

Meta AI 发布感知语言模型 (PLM)：用于解决视觉识别难题的开放式可复制视觉语言模型

实时互动网 ·

人工智能行车记录仪数据集在真实条件下以87%的准确率预测汽车碰撞

DEV Community ·

本研究提出了基于物理的异常检测（Phys-AD）数据集，旨在克服现有工业异常检测算法在静态数据集上的局限性。该数据集是首个大规模真实世界的物理基础视频数据集，结合物理知识和视频内容进行视觉推理，以识别物体异常。

Towards Visual Recognition and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

BriefGPT - AI 论文速递 ·

本研究探讨了利用深度学习模型将语音转化为手势动作的方法，提出了多种生成手势的框架和模型，显著提升了手势生成的真实感和同步性。同时，研究发布了大型视频数据集，以支持模型的训练与评估。

强调语音驱动手势生成中显著姿态的语义一致性

BriefGPT - AI 论文速递 ·

BDD100K是最大的驾驶视频数据集，支持自主驾驶算法评估。DriveSceneGen生成高保真动态驾驶场景，DriveDreamer-2利用语言模型生成定制视频。GenAD模型通过大量数据提升预测能力，Delphi生成长视频以提高规划性能，SimGen模型结合模拟与现实数据，增强自动驾驶系统的可扩展性和安全性。

GenDDS：利用提示生成视频的生成模型生成多样化的驾驶视频场景

BriefGPT - AI 论文速递 ·

本研究探讨了视觉代理在室外场景中的导航能力，提出了多种提升导航性能的方法，包括利用大规模视频数据集和预训练模型。实验结果表明，新方法在多个基准测试中取得了显著进展，尤其在复杂环境中表现优异。

离线强化学习在视觉和语言导航中的扩展

BriefGPT - AI 论文速递 ·

Ego-Exo4D是一个多模态多视图视频数据集和基准挑战，包含了来自全球13个城市的800多名参与者在131个不同的自然场景环境中进行的技能人类活动的自我中心和外部视角视频。该数据集具有多通道音频、眼动数据、3D点云、相机姿态、IMU数据和多个配对的语言描述等多模态特性。为了推进对技能人类活动的第一人视角视频理解的研究，提出了一系列基准任务及其标注。

背包里装满技能：多角度任务视角下的自我中心视频理解

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的视频理解任务方法，将基于知识的问题回答融合进来，并提出了一个关于情景喜剧的视频数据集。该数据集融合了视觉、文本和时间的连贯思维，需要观看该系列影片的体验知识才能回答基于知识的问题。同时，本文提出了一种能够将视觉和文本视频内容与剧集相关的具体知识相结合的视频理解模型。主要发现是融入知识可在视频问答方面产生卓越的改进，但仍需进一步研究提高准确度。

BDIQA：一个探索通过心智理论进行认知推理的视频问答新数据集

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为NTrack的多物体追踪系统，利用自动化追踪技术独立于检测方法，实验证明其在棉铃追踪和计数方面的有效性超过其他方法，并公开了第一个棉铃视频数据集。

NTrack：一种适用于棉花田中的多目标跟踪器和数据集

BriefGPT - AI 论文速递 ·

该研究介绍了一个名为Cattle Visual Behaviors (CVB)的视频数据集，用于牛行为识别。通过计算机视觉标注工具（CVAT）收集了502个视频剪辑，每个剪辑15秒长，标注了11种牛的行为。使用预训练模型对视频中的牛进行检测和跟踪，并使用CVAT进行修正和标记，减少了标注时间和精力。最后，使用SlowFast动作识别模型对数据集进行训练和评估，能够准确识别牛的频繁出现的行为。