我们刚刚结束了2024年12月的AI、机器学习和计算机视觉聚会。文章回顾了CoTracker3模型在视频序列中跟踪对象的创新与改进,介绍了YOLOv8在零售产品检测中的应用,以及即将举行的聚会安排。
co-tracker 是一个视频像素跟踪模型,支持手动选择和网格采样。CS-Notes 是一个开源项目,涵盖技术面试知识和算法题解。gsplat 是一个用于 CUDA 加速高斯光滑的库,提供 Python 绑定。awesome-LLMs-In-China 列出中国的大型语言模型,欢迎贡献。canvas-editor 是一个富文本编辑工具。
本文介绍了掩码自动编码器(MAE)在计算机视觉中的应用,强调其自监督学习能力和高效性。MAE通过统一遮蔽(UM)和轻量级模型EfficientSAMs,在图像分类、对象检测、视频对象跟踪和分割等任务中表现出色,展现了优越的性能和计算效率。
本研究提出了一种新型的TAP模型,能够高效跟踪视频序列中的查询点,表现优于基准方法,适用于长高分辨率视频,并具备实时跟踪速度。改进的TAP方法解决了累积误差问题,并引入了多粒度摄像机运动检测等组件,取得了优异成绩。此外,研究探讨了密集跟踪在机器人学习中的应用,提出了Context-TAP和T3VIP方法,提升了点轨迹的准确性和自主技能获取能力。
本文介绍了一种基于实例分割的迁移学习方法,用于动物行为分析。该方法能够在实验室视频中跟踪多个动物并进行行为分析,达到人类水平,且只需少量标记图像进行训练,推动了动物行为分析技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。