小红花·文摘

本研究提出源感知语义表示网络（SaSR-Net），旨在提升音视频问答（AVQA）中的多模态场景解析能力。该网络通过源级可学习标记捕捉音视频元素，并利用空间和时间注意机制简化信息融合。实验结果表明，其在Music-AVQA和AVQA-Yang数据集上超越了现有方法。

BriefGPT - AI 论文速递 ·

该论文介绍了多种先进的语义分割网络，如RFNet、CDINet和USNet，旨在提升自动驾驶中的场景解析能力。这些模型通过融合RGB和深度数据，实现高精度和实时推理。RoadFormer+模型有效整合多种数据源，提升解析准确性并减少参数量。

BriefGPT - AI 论文速递 ·