机器之心 ·

年末惊喜！ByteDance Research视频理解大模型「眼镜猴」正式发布

💡 原文日文，约2400字，阅读约需6分钟。

📝

内容提要

ByteDance Research 发布了视频理解大模型 Tarsier2，具备强大的视频分析能力，能够细致捕捉人物动作和情节发展。经过大规模预训练和后训练，Tarsier2 在视频描述任务上超越了多款模型，展现出广泛的应用潜力，尤其在机器人和智能驾驶领域。

🎯

关键要点

ByteDance Research 发布了视频理解大模型 Tarsier2，具备强大的视频分析能力。
Tarsier2 在视频描述任务上超越了多款模型，展现出广泛的应用潜力。
Tarsier2 能够细致捕捉人物动作和情节发展，结合视频字幕信息分析人物动机和心理。
模型支持动态分辨率，能够理解长达几十分钟的视频，尤其擅长短视频分析。
Tarsier2 的强大能力源于大规模的预训练和后训练阶段。
预训练阶段使用了 4000 万个互联网视频 - 文本数据，解决了高质量对齐数据的获取难题。
后训练分为 SFT 和 DPO 两个阶段，强化模型对时序信息与视觉特征的关注。
Tarsier2 在多达 19 个视频理解公开基准上进行了性能测试，表现亮眼。
在视频描述评测集 DREAM-1K 上，Tarsier2 相比其他模型有显著提升。
Tarsier2 在机器人和智能驾驶等下游任务场景中展现出强大的泛化能力。
Tarsier2 在多模态深度融合的人工智能发展中迈出了坚实的步伐。

🏷️

继续阅读

谁能通过真实世界考验？ATEC2026发起具身智能“图灵测试”
ATEC2026“人工智能与机器人真实世界极限挑战”赛事正式启动，聚焦具身智能在开放环境中的能力验证。赛事包括线上赛、线下预选赛和决赛，考察机器人在复杂任...
全球最大规模含触觉数据集，凭什么吸引谷歌和众多高校的加入？
戴盟机器人联合多家顶尖机构发布了全球最大的触觉全模态数据集Daimon Infinity，旨在提升具身智能的训练效率。该数据集包含触觉和视觉等多维信息，预...
应对深度视频伪造和欺诈视频会议软件Zoom将基于虹膜验证参会人员是否为真人
视频会议软件Zoom与Worldcoin合作，推出实时真人验证功能，利用虹膜和深度人脸识别技术确保参会者为真实人类。通过交叉比对图像和视频帧，验证成功者将...
AI眼镜“渡江”：百镜大战的下一程
千问AI眼镜S1在4月15日开启现货发售，开售仅10小时即在天猫、京东、抖音等主流电商平台拿下多项销量榜单第一。此前一个多月里，千问AI眼镜G1也已在3月...
Andrei Lepikhov: Finding invisible use-after-free bugs in the PostgreSQL planner
On a PostgreSQL build with assertions enabled, run the standard make check-wo...
谷歌照片新增人脸细微修饰工具
谷歌推出了新的照片编辑工具，专注于人脸细微修饰，包括去除瑕疵、美白牙齿和平滑肌肤，并可调整效果强度，确保修饰自然。该功能正在全球范围内逐步推出，适用于An...

年末惊喜！ByteDance Research视频理解大模型「眼镜猴」正式发布

内容提要

关键要点

标签

继续阅读