Ring摄像头推出AI功能“视频描述”,可生成门口活动的文本描述,提供具体警报信息,帮助用户快速判断是否采取行动。目前该功能在美国和加拿大的Ring Home Premium订阅用户中测试。其他公司如Arlo和Google也在使用类似技术,但Ring不支持面部识别。
本研究提出了一种新框架,通过结合文本和视觉模态,从视频数据集中生成自然语言描述。该框架利用ResNet50提取视频帧特征,并通过基于GPT-2的模型生成高质量、可解释的描述,具有重要的实际应用价值。
AI 视频搜索公司 Moments Lab 推出了 MX-2,更新了多模式 AI 索引技术,训练数据集显著增加,提供更精准的视频描述。新增“自定义时刻”和 Custom Insights 功能,帮助用户生成视频关键时刻和文本内容。首席技术官表示,MX-2 在视频排序上优于 Google Research 的技术。
本研究提出了塔西尔2,一个先进的大规模视觉语言模型,旨在生成准确的视频描述,并展现出卓越的视频理解能力。通过优化预训练数据和时序对齐,塔西尔2在多个基准测试中超越了其他领先模型。
本研究提出了一种基于时空事件的可解释性方法,解决了机器学习中视觉与语言理解的问题,能够生成连贯且相关的视频文本描述,展示了视觉与语言模型的统一潜力。
完成下面两步后,将自动完成登录并继续当前操作。