小红花·文摘

本研究提出了M2S框架，旨在解决生成丰富长篇文本描述的不足，特别是结合视频和音频的描述。M2S框架通过音频、视频和角色识别，展示了在多模态文本生成领域的优越性和良好的可扩展性，具有重要的研究潜力。

Movie2Story: A Framework for Understanding Videos and Telling Stories in Novel Text Form

BriefGPT - AI 论文速递 ·

本研究提出DistinctAD框架，旨在解决音频描述生成中的领域差距和冗余问题。通过CLIP-AD适应策略和注意力模块，显著提高了音频描述的质量和独特性。

DistinctAD: Generating Unique Audio Descriptions in Context

BriefGPT - AI 论文速递 ·

Android推出了五个新功能更新，包括手表离线地图、图像音频描述、搜索音乐、网页朗读和地震警报系统扩展。这些更新提升用户体验并提供便利。

安卓五大新功能助你探索、搜索音乐及更多

The Keyword ·

本文提出了一种新的音频描述生成模型Uni-AD，利用预训练模型和多模态输入，解决电影音频描述中的上下文依赖问题。通过引入角色细化模块和对比损失，Uni-AD在生成质量上显著提升。同时，研究开发了新的数据集和评估指标，推动了音频描述技术的发展。

LLM-AD: 基于大型语言模型的音频描述系统

BriefGPT - AI 论文速递 ·

本文提出了一种新型音频描述模型，利用预训练模型生成高质量的电影音频描述，解决了上下文依赖和数据不足的问题。同时，开发了MM-Narrator系统，能够在长视频中生成准确描述，并在多个评估指标上优于现有方法。此外，研究探讨了多模态技术在广告视频分析中的应用，提升了对广告内容的理解。

上下文化的 AD 叙述与交错的多模式序列

BriefGPT - AI 论文速递 ·

提出了一种利用GPT-4进行多模态上下文学习的新系统MM-Narrator，用于音频描述的生成。该系统通过记忆增强生成过程，能够生成准确的音频描述，即使是超过数小时的长视频。实验结果表明，MM-Narrator在大多数情况下都优于现有的方法，在评估指标下得分更高。同时引入了基于片段的重复文本生成评估器。

MM-Narrator: 多模态上下文学习中的长视频叙事

BriefGPT - AI 论文速递 ·