本研究提出了一种内存高效机制——敏捷图像恢复(AgileIR),通过引入分组移位窗口注意力(GSWA),减少内存消耗,提高模型训练速度,保持32.20 dB的表现,并节省超过50%的内存。
通过生成学习重新构建声音事件检测问题,模型学习逆转噪声处理,能从噪声查询中生成准确的事件边界。实验证明,在Urban-SED和EPIC-Sounds数据集上,模型训练速度更快且优于现有替代方法。
完成下面两步后,将自动完成登录并继续当前操作。