小红花·文摘

TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型，旨在解决具身视觉跟踪任务。通过联合训练，该模型在动态环境中展现出优越的识别与规划能力，提升了智能体在复杂场景中的跟踪效果。

TrackVLA——开放世界下的四足具身视觉跟踪EVT(智能跟随)：集目标识别与轨迹规划为一体的VLA，不怕高动态与遮挡

结构之法算法之道 ·

本文介绍了一种音视频“位置时间标记”模型，结合多人视觉跟踪与多重语音源定位，解决了多人语音辨别问题。研究提出了新方法和数据集，显著提高了说话人分离的准确性和效率。

整合音频、视觉和语义信息以增强多模态说话者区分

BriefGPT - AI 论文速递 ·

本文提出了一种新型非刚性物体跟踪框架，利用完全卷积神经网络建模显著性先验，并通过多尺度机制生成显著性地图。该算法在显著性检测和视觉跟踪方面表现优异，适用于目标经历严重变换的情况，实验结果显示在多个数据集上取得最佳性能。

基于时间能量选择缩放和轨迹关联的小目标检测和跟踪新方法

BriefGPT - AI 论文速递 ·

本文提出了一种无监督学习方法，利用Siamese相关滤波网络进行视觉跟踪，达到实时速度和高准确度。通过多帧验证和成本敏感损失，利用未标记数据提升跟踪精度。此外，研究探讨了自我监督学习在3D物体跟踪和弱标记视频中的应用，展示了在多目标定位和对象检测中的优越性能。

利用自监督学习检测跟踪器错误，以最小人工参与收集始终高质量的物体轨迹

BriefGPT - AI 论文速递 ·

HPFormer是一种基于Transformer的新方法，利用其强大的表示学习能力来提高视觉跟踪性能。通过HHA模块实现特征提取和融合，通过TBM从高光谱输入中选择性地聚合空间细节和光谱特征来注入目标表示。实验证明，HPFormer在NIR和VIS跟踪数据集上具有最先进的性能，提供了改进鲁棒目标跟踪的新见解。

Hy-Tracker：一种提升高光谱视频物体跟踪效率和准确性的新框架

BriefGPT - AI 论文速递 ·

CiteTracker是一种通过连接图像和文本来增强视觉跟踪的方法。它包括文本生成模块和动态描述模块，能够将目标图像转换为包含类别和属性信息的描述性文本，并适应目标变化以获得更有效的目标表示。通过基于注意力的相关模块将目标描述和搜索图像关联起来，生成用于目标状态参考的相关特征。实验证明，该方法在五个不同数据集上具有较好的性能。

CiteTracker：用于视觉跟踪的图像和文本相关联

BriefGPT - AI 论文速递 ·