BriefGPT - AI 论文速递 ·

TAFormer：面向航拍场景中视频和运动联合预测的统一目标感知 Transformer

💡 原文中文，约1700字，阅读约需5分钟。

📝

内容提要

本文介绍了多种基于Transformer的模型，如AgentFormer、VT-Former和AerialFormer，应用于多智能体行为预测、车辆轨迹预测和航空影像分割等领域。这些模型在各自的数据集上表现出色，展示了Transformer在不同任务中的广泛适用性和鲁棒性。

🎯

AgentFormer 是一种新的 Transformer 模型，能够联合模拟时间和社交两个维度，用于多智能体行为预测，并在公共数据集上取得了最先进的结果。
VT-Former 结合了 Graph Attentive Tokenization 模块，提出了一种精确的车辆轨迹预测方法，在多个基准数据集上表现出色，展示了其普适性和鲁棒性。
AerialFormer 融合了 Transformers 和轻量级 MD-CNNs，应用于航空影像分割领域，在多个数据集上表现优于之前的最先进方法。
ActionFormer 采用多尺度特征表示和本地自我注意力机制，在视频动作识别任务中取得了优异的性能。
TrackFormer 是一种端到端可训练的多目标追踪方法，利用注意力机制实现数据关联，表现出色。
GloTSFormer 通过高斯 Wasserstein 距离指导视频文本定位，显著提高了 MOTA 指标。
TrajectoryFormer 是基于点云的 3D 多目标跟踪框架，在 Waymo 3D MOT 基准测试中表现最佳。
PTSEFormer 引入上下文框架和时间信息，提升了对象检测性能，在 ImageNet VID 数据集上取得了 88.1% mAP。
MixFormer 采用混合注意力模块，在多个基准测试数据集上取得了最新的最高成功率和 EAO 评分。
ASFormer 是一种高效的 Transformer 模型，解决了动作分割任务中的问题，并在多个公共数据集上进行了广泛实验。

❓

AgentFormer 模型能够联合模拟时间和社交两个维度，用于多智能体行为预测。

VT-Former 在多个基准数据集上表现出色，具有最先进的性能和良好的普适性与鲁棒性。

AerialFormer 融合了 Transformers 和轻量级 MD-CNNs，应用于航空影像分割，并在多个数据集上表现优于之前的方法。

TrackFormer 是一种端到端可训练的多目标追踪方法，利用注意力机制实现数据关联。

GloTSFormer 通过高斯 Wasserstein 距离指导视频文本定位，显著提高了 MOTA 指标。

ASFormer 解决了动作分割任务中的问题，通过局部连接归纳先验和精心设计的解码器来提升性能。

🏷️