ByteDance Research 发布了视频理解大模型 Tarsier2,具备强大的视频分析能力,能够细致捕捉人物动作和情节发展。经过大规模预训练和后训练,Tarsier2 在视频描述任务上超越了多款模型,展现出广泛的应用潜力,尤其在机器人和智能驾驶领域。
完成下面两步后,将自动完成登录并继续当前操作。