NVIDIA AI 发布 Describe Anything 3B:用于细粒度图像和视频字幕的多模态 LLM 视觉语言模型本地化字幕面临的挑战 描述图像或视频中的特定区域一直是视觉语言建模领域的一项挑战。虽然通用视觉语言模型 (VLM) 在生成全局描述方面表现良好,但它们往往无法生成详细的... NVIDIA推出的Describe Anything 3B(DAM-3B)模型,通过焦点提示和局部视觉主干,有效生成图像和视频的详细描述,克服了数据稀缺问题,表现优于其他模型,广泛应用于辅助功能和视频分析等领域。 DAM-3B NVIDIA ai llm 图像生成 视觉语言模型 视频字幕