小红花·文摘

本研究探讨了大型音频语言模型在理解音频和语言信息时的幻觉问题。通过三个评估任务，发现模型在识别声音事件、确定事件顺序和识别声音来源方面存在局限性。引入多轮链式思维方法后，模型表现有所提升。