小红花·文摘

本研究探讨了音频问题回答（AQA）任务中的时间推理能力，提出了多种模型以提升性能，包括MALiMo和INDENT。研究表明，利用多模态知识和新数据集可以显著改善音频场景理解和问题定位能力。此外，GAMA模型在音频理解任务中表现优异，解决了文本到音频检索中的时间顺序理解问题。