TwelveLabs于2025年12月1日发布了Marengo 3.0视频基础模型,具备视频理解、物体追踪和时空推理功能,存储成本降低50%,索引速度提升2倍。该模型支持多模态查询,适用于体育、媒体和公共安全等领域,现可通过Amazon Bedrock访问。
ViSpeak推出的实时视觉反馈系统通过结合视觉指令与语言模型,提升视频理解准确率2.67%。该系统有效处理动态视频内容,显著改善物体追踪和视频导航等应用的性能。
本研究比较了激光雷达与立体相机在室内环境中对单一物体的追踪性能,提出了一种快速物体检测器。结果表明,立体相机的追踪性能与激光雷达相当,但成本差异超过十倍。
本文介绍了一种基于神经网络的时序多背景制作系统,结合绿幕抠图和alpha matting,解决色散问题并提升拍摄质量。同时,研究了低光环境下的物体追踪和高动态范围照明估计,提出多种深度学习方法以提高目标检测和图像增强性能。
本文研究了低光环境下物体追踪的挑战,提出了一种结合去噪和低光增强的方法,显著提升了追踪性能。实验结果表明,该方法在多个数据集上优于传统模型,尤其在夜间目标检测中表现突出。
本文介绍了一种基于事件相机和深度神经网络的实时物体追踪方法,优于传统方法。研究提出了Gamma-Net结构,提升了轮廓检测的样本效率,并探讨了深度神经网络在视觉追踪中的应用。该算法在多个基准测试中表现出色,并提出了针对小尺度目标的行人检测方法和热红外跟踪器HSSNet,均取得良好性能。
完成下面两步后,将自动完成登录并继续当前操作。