本研究提出了一种基于高斯混合模型的聚类方法,用于解决视频异常检测中的空间上下文建模问题。该方法有效减少了模型参数,并在街景数据集上取得了优异表现,同时生成了解释性正常性图。
本研究提出了ContextHOI框架,旨在提升人机交互(HOI)识别中的空间上下文利用。该框架通过双支路设计,高效提取物体特征和空间上下文,在HICO-DET和v-coco基准上实现了先进性能,增强了模糊或遮挡情况下的交互识别能力。
本研究提出了MegaCOIN数据集,以提升视觉语言模型在色彩感知和空间上下文理解方面的能力。经过微调,模型在视觉评估任务中表现显著改善,超越了GPT-4o等闭源模型。
本文探讨了手写文本识别(HTR)中的空间上下文自我监督学习方法,展示了其在该领域的应用和优化。实验结果表明,该方法在多个基准测试中推动了HTR的技术进展,并通过利用未标记数据解决了数据稀疏性问题,提升了系统性能。
完成下面两步后,将自动完成登录并继续当前操作。