小红花·文摘

为了解决电影音频描述中的挑战，研究人员开发了一个新模型，使用了视觉特征、演职员表和对话的时间位置来生成电影音频描述。该模型解决了命名、生成音频描述和视觉-语言模型等问题，并在音频描述生成方面取得了改进。